Qwen3小升級即SOTA,開源大模型王座快變中國內部賽了

0 評論 391 瀏覽 0 收藏 6 分鐘

參數(shù)砍到對手四分之一,分數(shù)卻反超登頂——Qwen3 的“2507”小升級只用 235B 體量就把 1T 的 Kimi K2 拉下馬,AIME25 從 24.7% 飆到 70.3%,256K 長文本也一口氣吃透。開源大模型的王座還沒坐熱,就已變成中國隊的內部循環(huán)賽:DeepSeek→Kimi→Qwen,下一棒隨時到站。

開源大模型正在進入中國時間。

Kimi K2風頭正盛,然而不到一周,Qwen3就迎來最新升級,235B總參數(shù)量僅占Kimi K2 1T規(guī)模的四分之一。

基準測試性能上卻超越了Kimi K2。

Qwen官方還宣布不再使用混合思維模式,而是分別訓練Instruct和Thinking模型。

所以,此次發(fā)布的新模型僅支持非思考模式,現(xiàn)在網(wǎng)頁版已經(jīng)可以上線使用了,但通義APP還未見更新。

Qwen官方還透露:這次只是一個小更新!大招很快就來了!

但總歸就是,再見Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。

By the way,這個名字怎么取得越來越復雜了。

先來看看這次的“小更新”都有哪些~

增強了對256K長上下文的理解能力

新模型是一款因果語言模型,采用MoE架構,總參數(shù)量達235B,其中非嵌入?yún)?shù)為234B,推理時激活參數(shù)為22B。

在官方介紹中顯示,模型共包含94層,采用分組查詢注意力(GQA)機制,配備64個查詢頭和4個鍵值頭,并設置128個專家,每次推理時激活8個專家。

該模型原生支持262144的上下文長度。

這次改進主要有以下幾個方面:

  • 顯著提升了通用能力,包括指令遵循、邏輯推理、文本理解、數(shù)學、科學、編碼和工具使用。
  • 大幅增加了多語言長尾知識的覆蓋范圍。
  • 更好地符合用戶在主觀和開放式任務中的偏好,能夠提供更有幫助的響應和更高質量的文本生成。
  • 增強了對256K長上下文的理解能力。

在官方發(fā)布的基準測試中可以看到,相較于上一版本,新模型在AIME25上準確率從24.7%上升到70.3%,表現(xiàn)出良好的數(shù)學推理能力。

而且對比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略勝一籌。

為了提高使用體驗,官方還推薦了最佳設置:

Qwen3新版本深夜發(fā)布就立刻收獲了一眾好評:Qwen在中等規(guī)模的語言模型中已經(jīng)領先。

也有網(wǎng)友感慨Qwen在開啟新的架構范式:

One More Thing

有趣的是,就在Qwen3新模型發(fā)布的前兩天,NVIDIA也宣稱發(fā)布了新的SOTA開源模型OpenReasoning-Nemotron。

該模型提供四個規(guī)模:1.5B、7B、14B和32B,并且可以實現(xiàn)100%本地運行。

但實際上,這只是基于Qwen-2.5在Deepseek R1數(shù)據(jù)上微調的模型。

而現(xiàn)在Qwen3已經(jīng)更新,大招已經(jīng)被預告。

隨著Llama轉向閉源的消息傳出,OpenAI遲遲不見Open,開源基礎大模型的競爭,現(xiàn)在正在進入中國時間。

DeepSeek丟了王座,Kimi K2補上,Kimi K2坐穩(wěn)沒幾天,Qwen的挑戰(zhàn)就來了。

體驗鏈接:https://chat.qwen.ai/

參考鏈接:

[1]https://x.com/Alibaba_Qwen/status/1947344511988076547

[2]https://x.com/giffmana/status/1947362393983529005

聞樂 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號:【量子位】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!