Qwen3 發(fā)布,第一時間詳解:性能、突破、訓(xùn)練方法、版本迭代…
阿里通義千問團(tuán)隊最新發(fā)布的Qwen3系列模型,在人工智能領(lǐng)域引起了廣泛關(guān)注。文章深入解析了Qwen3的性能提升、技術(shù)突破、訓(xùn)練方法和版本迭代歷程,展示了阿里在大模型領(lǐng)域的快速發(fā)展和創(chuàng)新能力。Qwen3的發(fā)布不僅標(biāo)志著阿里在AI技術(shù)上的又一次飛躍,也為開發(fā)者和企業(yè)帶來了更高效、更靈活的AI解決方案。
今天凌晨,Qwen3發(fā)布
圖片來源:我畫的
介于 DeepSeek 和 OpenAI 暫無動靜,Qwen 算是把頭條保住了,恭喜~
發(fā)布內(nèi)容
本次發(fā)布,包含 MoE 和 Dense 兩種架構(gòu):MoE:有 30B(3B激活)和 235B(22B激活)兩種。Dense:包含 0.6B、1.7B、4B、8B、14B 和 32B 這六款
本次發(fā)布的旗艦?zāi)P褪?Qwen3-235B-A22B,后綴 235B 指的是模型大小 235B,A22B 指的是激活參數(shù) 22B。
在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,這個 235B 的 Qwen3,水平超過 671B 的 DeepSeek R1。
Qwen3 vs DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro。對于小一點的 MoE 模型:Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,其表現(xiàn)超過 DeepSeek V3/GPT-4o
Qwen3-4B 這樣的小模型,也能匹敵 Qwen2.5-72B-Instruct
「思考模式」的無縫切換
在我看來,在功能層面,Qwen3 最顯著的更新,是引入了「思考模式/非思考模式」的無縫切換。
思考模式的輸出方式,類似 DeepSeek R1,模型會逐步推理,經(jīng)過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復(fù)雜問題。
非思考模式則更類似 DeepSeek V3,提供快速的即時響應(yīng),適用于那些簡單問題。
通過這種方式,用戶能夠根據(jù)具體需求,來控制模型的“思考”的程度,做到效果、成本、時間上的平衡。
在不同思考深度下,模型的得分情況
掌握多種語言
Qwen2 支持 29 種語言
中英文 + 27 種其他語言
Qwen3 支持了 119 個語種和方言
Qwen3 支持的語種和方言更強的 Agent 能力
本次 Qwen3 的更新,還體現(xiàn)在了 Agent 和 代碼能力,同時也加強了對 MCP 的支持。
值得一提的是,Qwen 有一個配套的 Qwen-Agent 項目,可以方便地使用 API 進(jìn)行工具調(diào)用,或結(jié)合現(xiàn)有的工具鏈進(jìn)行擴展Qwen3,對 MCP 有了更好的支持
實際體驗
接下來用兩個個例子,直觀的展示本次 Qwen3 的能力變化
當(dāng)然了,你也可以訪問 Qwen 的網(wǎng)站,來直接體驗https://chat.qwen.ai/
長/短思考
對于是否思考,你可以開啟/關(guān)閉,以及設(shè)定的長度
也可以讓他講講人生道理
代碼能力
所謂原湯化原食,讓他給本文做個可視化,美感還是在線的
讓英雄查英雄,讓 Qwen3 畫 Qwen3
訓(xùn)練細(xì)節(jié)
接下來,讓我們看看這個模型是怎么訓(xùn)出來的,過程上包括預(yù)訓(xùn)練和后訓(xùn)練。
預(yù)訓(xùn)練
先做一個基礎(chǔ)的了解:
Qwen2.5 的訓(xùn)練數(shù)據(jù),是在 18 萬億 token
Qwen3 的訓(xùn)練數(shù)據(jù)翻倍:約 36 萬億個 token,涵蓋了 119 種語言和方言。
這些數(shù)據(jù),一方面是來自于互聯(lián)網(wǎng)信息的收集,一方面則是通過 Qwen2.5-VL 來從各 PDF 中來提取內(nèi)容,再通過 Qwen2.5 改進(jìn)質(zhì)量。為了補充數(shù)學(xué)和編程領(lǐng)域的訓(xùn)練數(shù)據(jù),Qwen2.5-Math 和 Qwen2.5-Coder 被用來生成合成數(shù)據(jù)。
在預(yù)訓(xùn)練中,有三個階段:
第一階段,模型在30萬億tokens的數(shù)據(jù)上預(yù)訓(xùn)練,使用4K的上下文長度,這一階段主要是幫助模型建立基本的語言技能和常識理解。
第二階段,增強了STEM領(lǐng)域(科學(xué)、技術(shù)、工程、數(shù)學(xué))和編程任務(wù)的訓(xùn)練,增加了5萬億tokens的數(shù)據(jù)量,進(jìn)一步提升模型的推理能力。
第三階段,通過加入高質(zhì)量的長文本數(shù)據(jù),擴展了上下文長度到32K,讓Qwen3能夠處理更長的輸入,例如長篇文章或復(fù)雜的對話。
訓(xùn)練出來,大概就是這么個效果
通過這些步驟,Qwen3的Dense基礎(chǔ)模型在性能上達(dá)到了Qwen2.5更大模型的水平。例如,Qwen3-1.7B、4B、8B、14B、32B等版本的表現(xiàn),和Qwen2.5的3B、7B、14B、32B、72B相當(dāng)。而Qwen3的MoE模型,則只用了10%的激活參數(shù),便能提供同樣的推理能力,極大地節(jié)省了計算資源。
后訓(xùn)練
Qwen3的后訓(xùn)練是讓模型實現(xiàn)“逐步推理”和“快速響應(yīng)”的關(guān)鍵。團(tuán)隊通過四個階段的優(yōu)化,使得Qwen3不僅在復(fù)雜任務(wù)中有出色表現(xiàn),在簡單任務(wù)中也能快速給出答案。
第一階段:長鏈推理冷啟動:這一步通過微調(diào)多樣化的推理數(shù)據(jù),讓模型具備了處理復(fù)雜任務(wù)的基本能力,包括數(shù)學(xué)、編程和邏輯推理等任務(wù)。
第二階段:強化學(xué)習(xí)(RL):第二階段利用強化學(xué)習(xí)進(jìn)一步提升模型的推理能力,讓模型能夠在面對復(fù)雜任務(wù)時更加高效地尋找最佳答案。
第三階段:思考模式和非思考模式融合:這一創(chuàng)新允許模型在面對不同任務(wù)時,靈活切換“思考模式”和“非思考模式”。思考模式下,模型逐步推理,適合復(fù)雜問題;而非思考模式下,模型則能快速作出反應(yīng),適合日常對話和簡單問題。
第四階段:通用任務(wù)強化學(xué)習(xí):最后階段,通過對20多個常見任務(wù)的強化學(xué)習(xí)微調(diào),確保了Qwen3能夠在不同應(yīng)用場景下靈活應(yīng)對,包括指令跟隨、格式化輸出和智能代理能力等。
流程化成圖,大概是這樣
通過這一系列后訓(xùn)練,使得 Qwen3 掌握了思考模式,以及更好的工具調(diào)用能力。
Qwen 發(fā)展歷史回顧
阿里最早推出的AI,叫做通義千問 ,最早出現(xiàn)在 2023年4月。
在那時,叫做「通義千問大模型」
那時,它還是阿里云的閉源模型,定位類似 ChatGPT,為企業(yè)客戶提供服務(wù),并不開放源碼。
2023年8月初,Qwen 開源
首個開源的 Qwen 模型
23年8月,阿里開源了兩個新模型,Qwen-7B 和 Qwen-7B-Chat,在 ModelScope 和 Hugging Face 同時上線,以 Apache 2.0 的方式開源,Tech Report 也一并放出。
這一次,也是“Qwen”這一名稱首次被啟用,主要面向開源社區(qū),追求開源可用性、輕量部署、廣泛適配;
2023年9月底,Qwen-14B 發(fā)布
緊接著,Qwen-14B 開源
相比 Qwen-7B,Qwen-14B 訓(xùn)練量更大,中文能力、代碼生成、長文本推理都有明顯提升
同期,阿里開源了 qwen.cpp、Qwen-Agent,工具鏈和應(yīng)用框架開始成型。
那段時間,Qwen-7B 的訓(xùn)練也做了補強,tokens 從 2.2T 加到了 2.4T,上下文長度擴展到了 8K。
2023年11月底,Qwen-72B 上線
這是一版旗艦規(guī)模的模型,參數(shù)量拉到 720億,預(yù)訓(xùn)練數(shù)據(jù)達(dá)到了 3萬億 tokens。
這個版本的 Qwen,原生支持 32K 上下文,在中文推理、復(fù)雜數(shù)學(xué)、多輪對話上的表現(xiàn)明顯更穩(wěn)了。
小型號也同步補了:Qwen-1.8B,面對邊緣側(cè)和輕量場景進(jìn)行適配。
一波下來,Qwen把從1B到72B的參數(shù)區(qū)間基本打通了。
2024年春節(jié)期間,Qwen1.5
去年春節(jié)的時候,Qwen1.5 亮相
大過年的,Qwen1.5 發(fā)布,在基礎(chǔ)上做了深度優(yōu)化,主要是底層結(jié)構(gòu)調(diào)整、訓(xùn)練對齊增強。
同一階段,還放出了第一版 MoE 架構(gòu)的 Qwen1.5-MoE-A2.7B,推理成本壓下來了,但推理鏈條拉得更長。24年6月初,Qwen2
Qwen2,一個頗具影響力的版本
Qwen2 算是換了新的底盤: 預(yù)訓(xùn)練數(shù)據(jù)量大幅擴張,推理能力、代碼生成、長文本處理全部提升。
首批放出了 7B、32B、72B 三個尺寸,全覆蓋了中大型場景。
2024年9月中,Qwen2.5 接棒
這里是一些描述
- 新加了3B、14B、32B三個尺寸,適配更多硬件資源。
- 同步發(fā)了 MoE版,優(yōu)化了推理稀疏度,同時放出了 Qwen2.5-Omni,一個能統(tǒng)一文本、圖像、音頻、視頻處理的多模態(tài)模型。
那時候,Qwen2.5-7B 和 Omni-7B 在 Hugging Face 開源榜單上連續(xù)多周霸榜。
2025年4月底,Qwen3 到來
今天,Qwen3 開源
這一次,Qwen3 系列從 Dense 和 MoE 兩條線同步推進(jìn),從 0.6B 覆蓋到了 235B。
訓(xùn)練過程中,第一次引入了 漸進(jìn)式長文本預(yù)訓(xùn)練 和 長文本后訓(xùn)練,超長文本處理做了系統(tǒng)級的優(yōu)化。
推理任務(wù)上,模型內(nèi)部支持了 思考模式 / 非思考模式 的無縫切換,單個模型內(nèi)可以根據(jù)復(fù)雜度自動適配推理鏈路。
同時的,這個版本的模型,對外部工具的調(diào)用能力得到加強,為接下來的 Agent 大戰(zhàn)做足準(zhǔn)備。最后
從2023年4月,通義千問首次亮相,到2025年4月,Qwen3全面發(fā)布,短短兩年,三代更新,阿里一步步把自己的大模型打磨到了世界頂級水準(zhǔn)
從最初的閉源探索,到如今 Dense、MoE 雙線并進(jìn)、思考模式無縫切換、超長文本系統(tǒng)優(yōu)化……每個節(jié)點,都是硬仗
不多煽情,但還想說一聲:這一路,真的不容易
本文由人人都是產(chǎn)品經(jīng)理作者【賽博禪心】,微信公眾號:【賽博禪心】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!