Qwen3小升級即SOTA,開源大模型王座快變中國內部賽了
參數(shù)砍到對手四分之一,分數(shù)卻反超登頂——Qwen3 的“2507”小升級只用 235B 體量就把 1T 的 Kimi K2 拉下馬,AIME25 從 24.7% 飆到 70.3%,256K 長文本也一口氣吃透。開源大模型的王座還沒坐熱,就已變成中國隊的內部循環(huán)賽:DeepSeek→Kimi→Qwen,下一棒隨時到站。
開源大模型正在進入中國時間。
Kimi K2風頭正盛,然而不到一周,Qwen3就迎來最新升級,235B總參數(shù)量僅占Kimi K2 1T規(guī)模的四分之一。
基準測試性能上卻超越了Kimi K2。
Qwen官方還宣布不再使用混合思維模式,而是分別訓練Instruct和Thinking模型。
所以,此次發(fā)布的新模型僅支持非思考模式,現(xiàn)在網(wǎng)頁版已經(jīng)可以上線使用了,但通義APP還未見更新。
Qwen官方還透露:這次只是一個小更新!大招很快就來了!
但總歸就是,再見Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。
By the way,這個名字怎么取得越來越復雜了。
先來看看這次的“小更新”都有哪些~
增強了對256K長上下文的理解能力
新模型是一款因果語言模型,采用MoE架構,總參數(shù)量達235B,其中非嵌入?yún)?shù)為234B,推理時激活參數(shù)為22B。
在官方介紹中顯示,模型共包含94層,采用分組查詢注意力(GQA)機制,配備64個查詢頭和4個鍵值頭,并設置128個專家,每次推理時激活8個專家。
該模型原生支持262144的上下文長度。
這次改進主要有以下幾個方面:
- 顯著提升了通用能力,包括指令遵循、邏輯推理、文本理解、數(shù)學、科學、編碼和工具使用。
- 大幅增加了多語言長尾知識的覆蓋范圍。
- 更好地符合用戶在主觀和開放式任務中的偏好,能夠提供更有幫助的響應和更高質量的文本生成。
- 增強了對256K長上下文的理解能力。
在官方發(fā)布的基準測試中可以看到,相較于上一版本,新模型在AIME25上準確率從24.7%上升到70.3%,表現(xiàn)出良好的數(shù)學推理能力。
而且對比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略勝一籌。
為了提高使用體驗,官方還推薦了最佳設置:
Qwen3新版本深夜發(fā)布就立刻收獲了一眾好評:Qwen在中等規(guī)模的語言模型中已經(jīng)領先。
也有網(wǎng)友感慨Qwen在開啟新的架構范式:
One More Thing
有趣的是,就在Qwen3新模型發(fā)布的前兩天,NVIDIA也宣稱發(fā)布了新的SOTA開源模型OpenReasoning-Nemotron。
該模型提供四個規(guī)模:1.5B、7B、14B和32B,并且可以實現(xiàn)100%本地運行。
但實際上,這只是基于Qwen-2.5在Deepseek R1數(shù)據(jù)上微調的模型。
而現(xiàn)在Qwen3已經(jīng)更新,大招已經(jīng)被預告。
隨著Llama轉向閉源的消息傳出,OpenAI遲遲不見Open,開源基礎大模型的競爭,現(xiàn)在正在進入中國時間。
DeepSeek丟了王座,Kimi K2補上,Kimi K2坐穩(wěn)沒幾天,Qwen的挑戰(zhàn)就來了。
體驗鏈接:https://chat.qwen.ai/
參考鏈接:
[1]https://x.com/Alibaba_Qwen/status/1947344511988076547
[2]https://x.com/giffmana/status/1947362393983529005
聞樂 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號:【量子位】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!