国产一级黄色电影-在线观看你懂得-91视频一区二区-午夜高清-青青草综合-国产成人区-免费啪-欧美性猛交xxxx黑人猛交-日韩一区二区高清-色一情一区二-欧美特级黄色-日韩大尺度视频-91素人约啪-91成品视频-这里只有精品9

新聞資訊詳情

密切跟進OpenAI,國產o1類推理模型陸續登場

 2025-02-08 14:45:33          

60a7bd9a7bc6cca59651d495c8a27d14_60b8d7b56c4767bcd3961a22a7899f0d_a700x398.jpg

2025年第一個月,國產o1類模型開始密集更新,發布者包括“六小虎”中的月之暗面、階躍星辰,以及獨立于創業公司格局外的DeepSeek。

1月20日,DeepSeek正式發布性能對齊OpenAI-o1正式版的DeepSeek-R1,并同步開源模型權重。

根據DeepSeek披露的測試結果,它在數學、代碼、自然語言推理等任務上與OpenAI-o1-1217基本持平,尤其在AIME 2024(美國數學邀請賽)、MATH-500、SWE-Bench Verified(軟件開發領域測試集)三項測試集上以微弱優勢取勝。

作為對R1能力的一種驗證,由660B版本R1蒸餾得到的多個小尺寸模型中,32B和70B兩款模型在多項能力上能夠與OpenAI o1-mini對標。并且,這些蒸餾模型分屬Qwen系列和Llama系列,其中,14B Qwen系列蒸餾模型,其各項推理類測試集表現已經明顯好于QwQ-32B-Preview。

需要指出的是,DeepSeek還同步開源了DeepSeek-R1-Zero,這是一個僅在預訓練基礎上加入了RL(強化學習)而沒有經過SFT(監督微調)的成果。

由于沒有人類監督數據介入,R1-Zero在生成上可能存在可讀性較差、語言混雜的現象,但該模型仍然足以對標OpenAI-o1-0912。此外,它更重要的意義是側重于探索僅通過強化學習訓練大語言模型以獲得推理能力的技術可能性,為相關后續研究提供了重要基礎。

定價方面,DeepSeek延續了“AI大模型界拼多多”的身份標簽。DeepSeek-R1 API服務定價為每百萬輸入tokens 1元(緩存命中)/ 4元(緩存未命中),每百萬輸出tokens為16元。這番價格中,其緩存命中的輸入token價格不足OpenAI o1的2%,緩存未命中的輸入價格及輸出價格也僅為o1的3.6%。 

另一個與DeepSeek-R1顯得針鋒相對的推理類模型,是月之暗面于同一天發布的K1.5。 

從去年11月開始,月之暗面已經更新了k0-math數學模型、k1視覺思考模型等加入了強化學習的k系列模型。k1.5按照模態思路推進,是一個多模態思考模型。

月之暗面給k1.5的定位是“多模態o1”。簡單而言,k1.5同時包含多模態的通用能力和推理能力。

據官方數據,其Short-CoT(可理解為短思考)模式下的數學、代碼、視覺多模態和通用能力,對標GPT-4o和Claude 3.5 Sonnet;Long-CoT(可理解為長思考)模式下的數學、代碼、多模態推理能力,則達到了OpenAI o1正式版水平。 

就R1和k1.5的訓練方式而言,二者都采用了強化學習、多階段訓練、思維鏈以及獎勵模型。從公開信息看來,其不同環節存在各自的技術策略。 

DeepSeek利用了數千條長CoT冷啟動數據,先是對DeepSeek-V3-Base這一基礎模型進行微調。隨后進行面向推理的大規模RL訓練,并引入語言一致性獎勵克服語言混雜問題。經歷監督微調(SFT)之后,又進行適用于所有場景的強化學習,對推理數據和一般數據采用不同的獎勵規則。

另外,R1在強化學習中加入了組相對策略優化算法(Group Relative Policy Optimization,GRPO),從效果上來說,它能夠優化策略、提高樣本效率和增強算法穩定性等。

k1.5一方面將強化學習的上下文窗口擴展到128k,另一方面采用在線鏡像下降的變體進行穩健的策略優化,兩者相結合讓k1.5能夠建立一個相對簡潔的強化學習框架,在不加入蒙特卡洛樹搜索、價值函數和過程獎勵模型等更復雜技術的情況下,也能夠保證性能。

需要指出的是,k1.5在強化學習中還加入了“長度懲罰”來抑制響應長度,即確立一個公式,根據響應長度和確定性來分配獎勵值。此外它還采用了“最短拒絕采用方法”(選擇最短的正確響應進行監督微調)等方法來抑制響應長度。

k1.5的另一個特點是對文本和視覺數據進行了聯合訓練,這使其具備多模態能力。不過Kimi也承認,由于部分輸入主要支持文本格式,其面對部分幾何圖題的圖形理解能力還不夠強大。

在此之前,階躍星辰也于1月16日上線了Step Reasoner mini(下稱“Step R-mini”)實驗版。這也是一款具備超長推理能力的推理模型。 

但它還未完全準備好的是,目前在測試集中主要對標OpenAI o1-preview和o1-mini,而非o1完整版,當然這應該也與模型大小和訓練方式有關。在國內對標模型上,其表現與QwQ-32B-Preview相近。

不過,階躍星辰強調其“文理兼顧”,使用了On-Policy(同策略)強化學習算法,在保證數學、代碼、邏輯推理能力的同時,也能夠完成文學內容創作和日常聊天的任務。

至此,從去年9月OpenAI以o1模型變革模型訓練范式之后,各家大模型公司開始兌現當時的行業預期,形成了一定規模的國產o1類模型跟進潮。

但在所有玩家密切跟進o1的同時,OpenAI又在去年12月的發布季上讓o3和o3-mini一同亮相。盡管還沒有正式上線,但從OpenAI披露的數據來看,o3的性能相比o1又猛長了一大截。

例如,在SWE-Bench Verified這一軟件開發測試集中,o3得分71.7%,而o1僅有48.9%;在AIME2024測試集中,o3準確率96.7%,而o1為83.3%。o3的一些表現,已經開始展現AGI(通用人工智能)的初步特征。

當然,o3也存在自己的問題。一方面,o系列模型普遍更擅長邊界清晰、定義明確的任務,對部分現實世界的工程任務處理還存在欠缺。另一方面,近期,o3在FrontierMath這項數學基準測試中,也因OpenAI資助過相關機構而面臨提前獲取真題的真實能力水平質疑。 

但擺在國內大模型公司面前的共同問題仍然是明確的。從技術上來說,無論是DeepSeek-R1還是k1.5,都還沒有成功加入過程獎勵模型和蒙特卡洛樹搜索等更復雜技術,而這是否是模型進一步提高推理能力的關鍵方法,我們還無從得知。

另外,從o1到o3,OpenAI公布的間隔時間僅有三個月,這意味著強化學習帶來的推理階段scaling up的技術范式,顯然比GPT系列模型以年為單位的預訓練范式的節奏要快。

這是國內大模型公司共同要面對的競爭壓力。OpenAI不僅找到了更明確的技術路徑,并且有足夠的資源快速驗證并推進。當下,國內大模型行業將比過去更需要加速提效的突破式創新。


620

熱門資訊 更多 >>

05-31

2024

亞馬遜研發支出領跑全球 科技巨頭創新競賽日趨激烈

根據全球知名市場研究機構Gartner最新發布的數據,2023年全球企業研發支出總額達到3.1萬億美元,同比增長5.2%。其中,亞馬遜以...

08-15

2022

【媒體管家上海軟聞】國家級的媒體有哪些?哪些算中央媒體?

中央媒體名單 :嚴格意義上的中央媒體名單: 報紙類中央媒體:人民日報、中國日報、經濟日報、光明日報、解放軍報、工人日報、農...

05-13

2025

TRYX創氪星系 將攜多款新品亮相COMPUTEX 2025

全球知名的科技盛會COMPUTEXTAIPEI2025即將開幕。上周,高端PC硬件品牌TRYX創氪星系于官方社交媒體賬號官宣C...

01-02

2025

2025年將建成“星座”一期覆蓋全球 吉利加速布局天地一體化出行生態

2024年12月下旬的一天,在穿上防護服、戴上頭套,通過防塵吹風機后,記者終于進入到位于浙江省臺州灣新區的吉利衛星超級工廠,一...

01-26

2022

【行業動態】2022第一季度延期展會通知匯總

中國國際縫制設備展覽會(CISMA)是全球最大的專業縫制設備展覽會,展品包含了縫前、縫制、縫后各類機器以及CAD/CAM設...

03-21

2022

古鎮燈博會全球買家采購行線上展升級啟幕

采購盛宴聚勢云端,無縫助力廠商貿易。3月18日-4月18日,2022年古鎮燈博會全球買家采購行線上展再次升級啟幕,在展網融合型B2B...

03-10

2022

重要通知|2022年3月全國展會延期匯總表

2022年3月全國展會延期匯總都有哪些?快來看看吧!上述展會信息僅供參考,由于今年疫情情況特殊,展會時間/地點會存在不確定因素,...

主站蜘蛛池模板: 在线观看免费 | 欧美在线精品一区二区三区 | 五月天在线播放 | 国产资源一区 | 婷婷综合影院 | 91一区二区三区 | 69热在线 | a级淫片 | 91久久精品一区二区 | 欧美日韩日本国产 | 久久五月激情 | 性欧美巨大乳 | 久操福利在线 | 天天精品视频 | 男人捅爽女人 | 欧美鲁鲁 | 午夜精品免费观看 | 欧美性生交xxxxx久久久缅北 | 精品久久久一区二区 | 国产xxxx视频 | 兄弟兄弟全集免费观看 | 伊人婷婷在线 | 偷拍xxxx | 超碰97人人在线 | 天堂网在线最新版www中文网 | jlzzjlzzjlzz亚洲人 | 呦呦网| 黄色片国产 | 丰满少妇xbxb毛片日本 | av有码在线| 春色激情 | 先锋影音在线 | 大地资源高清播放在线观看 | 中文字幕视频免费观看 | 曰韩一级片| 久久精品欧美一区 | 奇米影视777在线观看 | 老司机深夜福利视频 | 波多野结衣视频在线播放 | 18性xxxxx性猛交| 欧美操女人 | 日本一级大毛片a一 | 午夜网页 | 精品乱码一区二区三四区视频 | 日韩精品第一页 | 风流少妇 | 亚洲最新视频 | 日韩岛国片| 麻豆视频在线观看 | 国产一极片 | 日本三级不卡 | 91国产高清| 岳狂躁岳丰满少妇大叫 | 花样视频污 | 91在线 | 国产伦精品一区二区三区视频孕妇 | 成人福利视频网站 | 人人干人人做 | 操比网站 | 无码人妻一区二区三区免费n鬼沢 | 91看片淫黄大片 | 日韩欧美中文字幕在线播放 | 国产婷婷色一区二区三区 | 欧美日韩中文一区 | www.插插插.com | 欧美一区二区在线播放 | 久久久资源 | 伊人丁香| 色在线免费观看 | 美女隐私无遮挡 | 国产乱子伦精品无码码专区 | 黄色av三级| 女尊高h男高潮呻吟 | 亚洲成人av在线播放 | 老师的肉丝玉足夹茎 | 97人人爽人人爽人人爽 | 天堂а√在线中文在线新版 | 国产成人久久精品 | 美女被草网站 | 4438x全国最大成人 | 国产女人18毛片水真多18精品 | 国产精品三级久久久久久电影 | 精品久久久久一区二区 | 亚洲精品偷拍视频 | 欧美天天影院 | 99精品小视频 | 人人爱人人射 | 99久久免费国产精精品 | 国产成人久久精品77777综合 | 成人区视频 | 国产精成人品免费观看 | 超碰精品在线 | 最新中文字幕在线视频 | 未满十八岁勿进 | 非洲黑人毛片 | 麻豆精品免费观看 | 丰满少妇一区二区 | 这里只有精品在线观看 | 女人的天堂网 |