阿里Qwen3發(fā)布:性能超R1、o1,成本僅R1的1/4,融合思考與非思考模式
阿里通義千問團(tuán)隊推出的Qwen3系列開源大模型,以其卓越的性能和成本效益,為人工智能領(lǐng)域樹立了新的標(biāo)桿。Qwen3不僅在多個基準(zhǔn)測試中展現(xiàn)出與DeepSeek-R1、o1等模型相媲美的能力,而且通過融合思考與非思考模式,顯著提升了模型的靈活性和性價比。
4 月 29 日早 5 點(diǎn)左右,阿里通義千問團(tuán)隊正式發(fā)布 Qwen3 系列開源大模型的最新版本。
根據(jù)官方的說法,Qwen3 的旗艦版本 Qwen3-235B-A22B,在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,達(dá)到了與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 同一梯度的水平。
在奧數(shù)水平的 AIME25 測評中,Qwen3-235B-A22B 斬獲 81.5 分,刷新了開源模型的紀(jì)錄;在考察代碼能力的 LiveCodeBench 評測中,Qwen3-235B-A22B 突破 70 分,表現(xiàn)甚至超過 Grok 3;在評估模型人類偏好對齊的 ArenaHard 測評中,Qwen3-235B-A22B 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。
Qwen3基準(zhǔn)測試結(jié)果
圖源:Qwen3 Github 頁
除了亮眼的旗艦版,Qwen3 還推出了小型 MoE 模型 Qwen3-30B-A3B,其激活參數(shù)量甚至比 QwQ-32B 更少,僅為 QwQ-32B 的 10%,并且性能更強(qiáng)大。甚至像 Qwen3-4B 這樣的小模型,也能匹敵 Qwen2.5-72B-Instruct 的性能。
Qwen3 基準(zhǔn)測試結(jié)果
圖源:Qwen3 Github 頁
對于 Qwen3 旗艦版的成本評估,我們可以用滿血版 671B DeepSeek-R1 來對標(biāo)。
滿血版 671B DeepSeek-R1, 8 張 H20 可跑( 成本 100 萬左右 ),適合低并發(fā)場景。一般推薦 16 張 H20,總價約 200 萬左右。
而 Qwen3 旗艦?zāi)P?Qwen3-235B-A22B,3 張 H20 可跑( 成本 36 萬左右 ),推薦配置只需要 4 張 H20( 成本 50 萬左右 )。
因此從部署成本角度看,Qwen3 旗艦?zāi)P褪菨M血版 R1 的 25%~35%,部署成本大降 75%~65%,顯存占用僅為性能相近模型的三分之一。
蘋果機(jī)器學(xué)習(xí)研究員 Awni Hannun 實測 Qwen3-235B-A22( 4bit 量化版,占用 132GB 內(nèi)存)可以在配置了 mlx-lm 的 M2 Ultra 上部署,并在生成 580token 輸出時實現(xiàn)了每秒 28個 token 的速度。
圖源:x.com@Awni Hannun
總體而言,Qwen3 家族成員非常豐富,共開源了兩個 MoE 模型,六個 Dense 模型。MoE 模型包括:Qwen3-235B-A22B:235B 總參數(shù)和 22B 激活參數(shù);Qwen3-30B-A3B:30B 總參數(shù)和 3B 激活參數(shù)。六個 Dense 模型包括 32B、14B、8B、4B、1.7B、0.6B 版本,具體參數(shù)如下。
模型家族成員的多尺寸,可以更好地滿足多種場景的部署需求。比如,4B 模型是手機(jī)端的絕佳尺寸;8B 可在電腦和汽車端側(cè)絲滑部署應(yīng)用;32B 最受企業(yè)大規(guī)模部署歡迎,有條件的開發(fā)者也可輕松上手。
通義千問團(tuán)隊表示,經(jīng)過后訓(xùn)練的模型,例如 Qwen3-30B-A3B,以及它們的預(yù)訓(xùn)練基座模型(如 Qwen3-30B-A3B-Base),現(xiàn)已在 Hugging Face、ModelScope 和 Kaggle 等平臺上開放使用。對于部署,官方推薦使用 SGLang 和 vLLM 等框架;而對于本地使用,則推薦 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。
同時,如果你是 C 端用戶,也可以在 Qwen Chat 網(wǎng)頁版 ( chat.qwen.ai ) 和通義千問手機(jī) APP 中試用 Qwen3 。
在體驗的時候,你一定要試試 Qwen3 新實現(xiàn)的與 Claude 3.7 Sonnet 近期展現(xiàn)的一個神秘能力相同的能力,也就是將思考模式和非思考模式融合在一個模型中。
通義千問團(tuán)隊表示,結(jié)合這兩種模式可以帶來極強(qiáng)的 “ 思考預(yù)算 ” 控制能力,具體來說,Qwen3 和 Claude 3.7 Sonnet 一樣,支持對推理 token 數(shù)進(jìn)行滑塊控制,最大 38k token,最小 1k token 。
這種靈活性對于用戶而言可以節(jié)省在簡單問題上過度推理的時間消耗,對于開發(fā)者、企業(yè)而言則能極大節(jié)省推理成本。有研究顯示,推理模式下的成本大約是非推理模式的 2 到 5 倍。
知危對控制思考長度的收益特別進(jìn)行了測試。
對于一個近期難倒眾多推理模型的問題 “ 如何讓 7 米長的甘蔗通過 2 米高 1 米寬的門?” 如果給 Qwen3-235B-A22B 最低推理預(yù)算 1k token,模型最終找到的答案是把墻設(shè)為有厚度,并通過勾股定理計算出墻的厚度,讓甘蔗沿著門和墻構(gòu)成的三維空間對角線穿過,這個操作雖然毫無必要,但也是正確的。
如果給 Qwen3-235B-A22B 最高推理預(yù)算 38k token,模型這次先是照常討論了在門平面對角線內(nèi)無法通過的結(jié)論,以及墻有厚度時如何沿著三維對角線通過的可能性,甚至探討了通過超高速運(yùn)動使得甘蔗尺度縮短的相對論效應(yīng)來通過的可能性,其它一些荒唐的想法包括把甘蔗彎成一個圈、把門拆掉、門旁開個大洞、把甘蔗先種在地上再推過去等等,甚至聯(lián)想到腦筋急轉(zhuǎn)彎的可能性也沒讓它想出正確答案。
最終模型是通過分析、類比甘蔗穿過大門與人穿過大門之間的相似性,找到了正確答案,強(qiáng)調(diào)關(guān)鍵是關(guān)注甘蔗的橫截面而不是長度,并理解了之前思維中的誤區(qū)所在。
關(guān)鍵思維鏈:
最終答案:
這個測試并不是個例,數(shù)據(jù)也驗證了 Qwen3 思考長度的 scaling 能力,通義千問團(tuán)隊通過實驗數(shù)據(jù)表明,推理 token 預(yù)算的增加確實能夠帶來性能的提升,接近線性關(guān)系,也就是說 2 倍推理 token能帶來 2 倍推理性能。
Qwen3推理token數(shù)與基準(zhǔn)測試表現(xiàn)關(guān)系
圖源:Qwen3 Github 頁
對于開發(fā)者部署,要禁用/啟用思考模式,只需對參數(shù)進(jìn)行適當(dāng)修改即可。同時,思考模式支持 “ 軟切換 ”,即在一個啟用了思考模式的多輪對話中,可以隨時通過在用戶提示或系統(tǒng)消息中添加 /think 和 /no_think 來逐輪、動態(tài)地切換模型的思考模式。
另外,非常值得注意的是,Qwen3 增強(qiáng)了 Agent 和代碼能力,同時也加強(qiáng)了對 MCP 的支持,在工具調(diào)用能力( function call )方面表現(xiàn)出色,在伯克利函數(shù)調(diào)用 BFCL 評測榜中,Qwen3 創(chuàng)下 70.76 的新高。
在以下示例中,Qwen3 展示了如何通過 MCP 和 Computer Use 與環(huán)境交互,并結(jié)合深度思考執(zhí)行相關(guān)任務(wù),比如通過 MCP 爬取一個網(wǎng)頁鏈接里的 Markdown 格式內(nèi)容,通過 Computer Use 基于文件類型重新組織桌面文件等。
通過 MCP 爬取一個網(wǎng)頁鏈接里的 Markdown 格式內(nèi)容
來源:Qwen3 Github 頁
通過 Computer Use 基于文件類型重新組織桌面文件
來源:Qwen3 Github 頁
在 Qwen3 的技術(shù)細(xì)節(jié)方面,我們簡單介紹一下數(shù)據(jù)處理、預(yù)訓(xùn)練和后訓(xùn)練的情況。
Qwen3 使用了相當(dāng)于 Qwen2.5 幾乎兩倍的數(shù)據(jù)量,約 36 萬億個 token,涵蓋了 119 種語言和方言,不但囊括了中、英、法、西、俄、阿拉伯等主要的聯(lián)合國語言,還包含了德、意、日、韓、泰、越南、尼泊爾、瑞典、波蘭、匈牙利等各國官方語言,以及中國的粵語、非洲的斯瓦西里語、中東的意第緒語、西亞的亞美尼亞語、東南亞的爪哇語、美洲的海地語等地方性語言。
其數(shù)據(jù)集來源不僅有互聯(lián)網(wǎng),還有大量的 PDF 文檔,后者被通過 Qwen2.5-VL 來提取內(nèi)容,并用 Qwen2.5 改進(jìn)內(nèi)容質(zhì)量。對于數(shù)學(xué)和代碼數(shù)據(jù),則利用擅長數(shù)學(xué)的 Qwen2.5-Math 和擅長代碼的 Qwen2.5-Coder 來合成數(shù)據(jù),包括教科書、問答對以及代碼片段等形式,來增加數(shù)據(jù)量。
預(yù)訓(xùn)練部分,千問團(tuán)隊通過不斷增加專業(yè)級數(shù)據(jù)和高質(zhì)量長上下文數(shù)據(jù),來提高模型能力,并延長有效上下文長度。
基于上述改進(jìn),Qwen3 Dense 基礎(chǔ)模型的整體性能與參數(shù)更多的 Qwen2.5 基礎(chǔ)模型相當(dāng),這極大節(jié)省了訓(xùn)練和推理成本。
而最令人好奇的,還是如何實現(xiàn)思考與非思考能力的融合,其實這是在后訓(xùn)練階段完成的。
通義千問團(tuán)隊實施了一個四階段的訓(xùn)練流程。該流程包括:
①長思維鏈冷啟動
②長思維鏈強(qiáng)化學(xué)習(xí)
③思維模式融合
④通用強(qiáng)化學(xué)習(xí)
前兩步都是訓(xùn)練思考模型的常規(guī)操作,關(guān)鍵在第三步。
在第三階段,千問團(tuán)隊在一份包括長思維鏈數(shù)據(jù)和常用的指令微調(diào)數(shù)據(jù)的組合數(shù)據(jù)上對模型進(jìn)行微調(diào),將非思考模式整合到思考模型中,確保了推理和快速響應(yīng)能力的無縫結(jié)合。
最后,在第四階段,在包括指令遵循、格式遵循和 Agent 能力等在內(nèi)的 20 多個通用領(lǐng)域的任務(wù)上應(yīng)用了強(qiáng)化學(xué)習(xí),以進(jìn)一步增強(qiáng)模型的通用能力,并糾正不良行為。
Qwen3 的后訓(xùn)練步驟
來源:Qwen3 Github 頁
整體來看,Qwen3 系列一如往常重視多尺寸與多語言,加上對 MCP、Computer Use 的支持,其在場景泛用性和深度整合能力上極佳,部署上對多框架的支持也給予開發(fā)者極大的便捷性。
但本次更新中最不可忽視的是,Qwen3 不僅在開源大模型領(lǐng)域樹立了新的性能和成本標(biāo)桿,其推理/非推理一體化設(shè)計預(yù)計將能極大提升模型在不同場景下的靈活性與性價比。撰文:流大古編輯:大餅
撰文:流大古 編輯:大餅
本文由人人都是產(chǎn)品經(jīng)理作者【知?!浚⑿殴娞枺骸局!浚瓌?chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!