Qwen3發(fā)布!超DeepSeek R1登頂開源榜,還帶來(lái)了跟R1不同配方
阿里巴巴開源新一代通義千問 Qwen3 系列模型,性能超越 DeepSeek R1 等主流模型,成為當(dāng)前性能領(lǐng)先的開源大語(yǔ)言模型。文章深入解析 Qwen3 的技術(shù)特點(diǎn)、創(chuàng)新之處以及與 DeepSeek R1 的不同配方。
在所有人都在猜測(cè)DeepSeek V4或者R2和Qwen3誰(shuí)先到來(lái)時(shí),Qwen3發(fā)布了。
4月29日凌晨,阿里巴巴開源了新一代通義千問Qwen3系列模型,涵蓋8款不同尺寸。其中,旗艦?zāi)P蚎wen3 235B采用混合專家(MoE)架構(gòu),總參數(shù)量235B(僅為DeepSeek-R1的1/3),激活參數(shù)僅需22B,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36萬(wàn)億Tokens。
性能上,據(jù)官方介紹,Qwen3在多項(xiàng)測(cè)評(píng)中表現(xiàn)優(yōu)異,超越DeepSeek-R1、OpenAI-o1等主流模型,成為當(dāng)前性能領(lǐng)先的開源大語(yǔ)言模型。
具體來(lái)看,Qwen3在推理、指令遵循、工具調(diào)用、多語(yǔ)言能力等方面均大幅增強(qiáng):在奧數(shù)水平的AIME25測(cè)評(píng)中,Qwen3斬獲81.5分,刷新開源紀(jì)錄;在考察代碼能力的LiveCodeBench評(píng)測(cè)中,Qwen3突破70分大關(guān),表現(xiàn)甚至超過(guò)Grok3;在評(píng)估模型人類偏好對(duì)齊的ArenaHard測(cè)評(píng)中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。
看慣了模型榜單表現(xiàn)上的反復(fù)超越,但這次的Qwen3還有些不同,比起單純的模型邊界突破,Qwen3更想突出的是以小博大的能力。而且它在和DeepSeek輪流推動(dòng)開源模型進(jìn)步的過(guò)程中,再次給開源社區(qū)提供了與R1不同的配方。
01 沒完全用R1的方法,但完成了對(duì)R1的超越
和R1類似的是,Qwen3也走的是“用模型訓(xùn)模型”的思路。
在預(yù)訓(xùn)練階段,Qwen3的性能優(yōu)化很重要的一個(gè)來(lái)源是大量高質(zhì)的合成數(shù)據(jù)。
數(shù)量上看,Qwen3的數(shù)據(jù)集相比Qwen2.5有了顯著擴(kuò)展。Qwen2.5是在 18 萬(wàn)億個(gè) token 上進(jìn)行預(yù)訓(xùn)練的,而 Qwen3 使用的數(shù)據(jù)量幾乎是其兩倍,達(dá)到了約 36 萬(wàn)億個(gè) token,涵蓋了 119 種語(yǔ)言和方言。其中一部分來(lái)自于PDF文檔提取信息,另一部分就是Qwen2.5系列模型合成的數(shù)據(jù)。
技術(shù)報(bào)告中明確提到,“我們使用 Qwen2.5-VL 從這些文檔中提取文本,并用 Qwen2.5 改進(jìn)提取內(nèi)容的質(zhì)量。為了增加數(shù)學(xué)和代碼數(shù)據(jù)的數(shù)量,我們利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個(gè)數(shù)學(xué)和代碼領(lǐng)域的專家模型合成數(shù)據(jù),合成了包括教科書、問答對(duì)以及代碼片段等多種形式的數(shù)據(jù)?!?/p>
這也意味著,在預(yù)訓(xùn)練的過(guò)程中,Qwen3借助自身的生態(tài)優(yōu)勢(shì),又構(gòu)建了一個(gè)自我迭代提升的數(shù)據(jù)系統(tǒng)。
預(yù)訓(xùn)練奠定了Qwen3的基礎(chǔ)能力,而在此基礎(chǔ)上的后訓(xùn)練階段則是Qwen3最為關(guān)鍵的技術(shù)創(chuàng)新,它通過(guò)多階段訓(xùn)練方法實(shí)現(xiàn)了推理能力與直接回答能力的融合。
以上圖為例,同一模型內(nèi)實(shí)現(xiàn)了思考和非思考模式。在官方的應(yīng)用界面來(lái)看,選擇哪種模式的方法看起來(lái)還是讓用戶自己選擇,不過(guò)在選擇了深度思考模式后,用戶多了一個(gè)設(shè)置思考預(yù)算的功能,讓模型根據(jù)問題難度動(dòng)態(tài)分配。
在后訓(xùn)練上,Qwen3用了和R1整體pipeline類似的的“回鍋肉”式迭代:微調(diào)、RL、再微調(diào),然后再更具體的RL。
它和DeepSeek一樣用大模型蒸餾小模型,不過(guò)Qwen徹底是自己蒸餾自己了。
另一個(gè)特別值得注意的是,第二階段RL,Qwen團(tuán)隊(duì)采用的是基于規(guī)則的獎(jiǎng)勵(lì)來(lái)增強(qiáng)模型的探索和鉆研能力。
“第二階段的重點(diǎn)是大規(guī)模強(qiáng)化學(xué)習(xí),利用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)增強(qiáng)模型的探索和鉆研能力?!惫俜讲┛蛯懙健_@與當(dāng)前被認(rèn)為是DeepSeek R1等模型成功關(guān)鍵的GRPO(基于結(jié)果獎(jiǎng)勵(lì)的優(yōu)化)形成鮮明對(duì)比。Qwen3沒有完全依賴GRPO這樣基于結(jié)果的獎(jiǎng)勵(lì)機(jī)制。
緊接著,在第三階段的微調(diào)中,Qwen3采用了一份長(zhǎng)思維鏈數(shù)據(jù)和常用的指令微調(diào)數(shù)據(jù)的組合數(shù)據(jù)上對(duì)模型進(jìn)行微調(diào),實(shí)現(xiàn)了將非思考模式整合到思考模型中,確保了推理和快速響應(yīng)能力的無(wú)縫結(jié)合。
最后,在第四階段,Qwen3在包括指令遵循、格式遵循和 Agent 能力等在內(nèi)的 20 多個(gè)通用領(lǐng)域的任務(wù)上應(yīng)用了強(qiáng)化學(xué)習(xí)。
Qwen3沒有完全用R1的方法,但完成了對(duì)R1的超越。
02 模型全尺寸,但參數(shù)正在“變小”
和Qwen此前的生態(tài)路線一樣,Qwen3一口氣發(fā)布了8款不同的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斬獲同尺寸開源模型SOTA(最佳性能)。
這次的全尺寸,果然沒有讓期待已久的社區(qū)失望,歡呼聲一片。
MLX 是專為 Apple Silicon設(shè)計(jì)的高效機(jī)器學(xué)習(xí)框架。在模型發(fā)布前,MLX的團(tuán)隊(duì)就完成了對(duì)Qwen 3的支持工作。其中0.6B和4B可以應(yīng)用于手機(jī),8B、30B、30B MOE可用于電腦……
尺寸全是一方面。更重要的是Qwen在不斷以更多、更小的尺寸,達(dá)到過(guò)去更大尺寸同樣的性能效果。在很多場(chǎng)景下,模型都具備了在端側(cè)運(yùn)行的能力和水平。
據(jù)官方博客顯示,Qwen3的30B參數(shù)MoE模型實(shí)現(xiàn)了10倍以上的模型性能杠桿提升,僅激活3B就能媲美上代Qwen2.5-32B模型性能;Qwen3的稠密模型性能繼續(xù)突破,一半的參數(shù)量可實(shí)現(xiàn)同樣的高性能,如32B版本的Qwen3模型可跨級(jí)超越Qwen2.5-72B性能。
Qwen3顯然是個(gè)能讓開源界好好把玩和拆解一段時(shí)間的最熱門模型,接下來(lái)它更全面的技術(shù)報(bào)告發(fā)布后,估計(jì)會(huì)揭秘更多“獨(dú)家配方”,繼續(xù)推動(dòng)開源模型的進(jìn)步和創(chuàng)新。
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!