欧美日韩国产精品自在自线,久久精品国产一区二区三区,亚洲欧美日韩在线一区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

搶先DeepSeek R2，阿里通義正式發(fā)布國(guó)內(nèi)首個(gè)通用推理模型

電廠

2025-04-30

0 評(píng)論 1323 瀏覽 1 收藏

11 分鐘

在大模型競(jìng)爭(zhēng)愈發(fā)激烈的當(dāng)下，阿里通義千問(wèn)團(tuán)隊(duì)于4月29日凌晨正式發(fā)布了Qwen 3系列模型，這是國(guó)內(nèi)首個(gè)通用推理模型。Qwen 3憑借其獨(dú)特的混合推理模式、強(qiáng)大的性能和顯著的成本優(yōu)勢(shì)，全面超越了此前備受關(guān)注的DeepSeek R1，成為全球開源大模型領(lǐng)域的新標(biāo)桿。

Qwen 3模型即將發(fā)布的消息，已經(jīng)流傳了一個(gè)月的時(shí)間；特別是最近一周內(nèi)，坊間對(duì)Qwen 3的猜測(cè)不斷在“憋個(gè)大的”與“最終難產(chǎn)”之間反復(fù)橫跳。直到4月29日凌晨，這款備受關(guān)注的模型終于亮相，號(hào)稱全面超越DeepSeek R1。

杭州一家中廠的算法從業(yè)者告訴「電廠」：“近幾個(gè)月網(wǎng)上不少DeepSeek R2的泄露信息，有人說(shuō)R2要在5月份發(fā)。Qwen 3（這個(gè)時(shí)間發(fā)布）肯定是想搶個(gè)先機(jī)?！痹谝患覈?guó)產(chǎn)大模型開放平臺(tái)工作的劉露則透露，其所在的團(tuán)隊(duì)提前不到12小時(shí)獲知Qwen3的發(fā)布消息，團(tuán)隊(duì)成員連夜完成了Qwen 3系列模型在該平臺(tái)的部署上線。

無(wú)論如何，Qwen 3的亮相都意味著開源AI大模型的技術(shù)能力再次被刷新；與之相繼的，將是產(chǎn)業(yè)鏈下游應(yīng)用者迎來(lái)一次新的生態(tài)選擇?！鸽姀S」注意到，Qwen 3發(fā)布僅10小時(shí)，已經(jīng)有開發(fā)者發(fā)布了套殼Qwen 3系列模型的ChatBot類產(chǎn)品。

基于Qwen 3的第三方ChatBot類產(chǎn)品，圖源/網(wǎng)絡(luò)?

01 國(guó)內(nèi)首個(gè)混合推理模型，成本/性能超越DeepSeek R1

根據(jù)阿里云通義千問(wèn)團(tuán)隊(duì)官宣，Qwen3系列開源了8個(gè)模型，其中包含2個(gè)MoE（混合專家）大模型和6個(gè)Dense（稠密）大模型。本次Qwen3系列模型尤為值得關(guān)注的創(chuàng)新是該模型支持思考模式、非思考模式兩種運(yùn)行方式。

在思考模式下，模型會(huì)逐步推理，經(jīng)過(guò)深思熟慮后給出最終答案。這種方法適合需要深入思考的復(fù)雜問(wèn)題；在非思考模式中，模型會(huì)提供快速、近乎即時(shí)的響應(yīng)，適用于對(duì)速度要求高于深度的簡(jiǎn)單問(wèn)題。換句話說(shuō)，Qwen3打破了DeepSeek R1等思維鏈模型慢思考的單一模式，而是為用戶賦予靈活選擇的權(quán)利。這也是如今全球大模型市場(chǎng)發(fā)展的重要方向之一。

不同Benchmark下Qwen3兩種思考模式對(duì)比，圖源/阿里云通義?

今年2月份，由部分OpenAI前員工創(chuàng)辦的Anthropic在全球范圍內(nèi)率先發(fā)布了名為Claude 3.7 Sonnet的混合推理模型，被視為融合了DeepSeek V3（適于通用任務(wù)）與R1（適于推理任務(wù)）模型的各自優(yōu)勢(shì)。這種混合模式引起了業(yè)界的廣泛關(guān)注。

OpenAI創(chuàng)始人Sam Altman就曾表示，OpenAI接下來(lái)將研發(fā)“它能夠知道什么時(shí)候應(yīng)該長(zhǎng)時(shí)間思考，并且通常適用于廣泛任務(wù)”的模型。而Qwen3是國(guó)內(nèi)首個(gè)混合推理模型。性能及成本優(yōu)化方面，Qwen3系列也表現(xiàn)驚人。

比如本次開源的兩個(gè)MoE模型，權(quán)重分別為Qwen3-235B-A22B，是一個(gè)擁有 2350 多億總參數(shù)和220多億激活參數(shù)的大模型；另一個(gè)為Qwen3-30B-A3B，一個(gè)擁有約300億總參數(shù)和30億激活參數(shù)的小型MoE模型。MoE（混合專家模型）混合包含多個(gè)專家網(wǎng)絡(luò)，每個(gè)專家通常是一個(gè)子模型、也可以是神經(jīng)網(wǎng)絡(luò)的一個(gè)子模塊，擁有不同的能力或?qū)ｉL(zhǎng)，能夠處理不同類型的輸入數(shù)據(jù)。

在運(yùn)行時(shí)，不同任務(wù)會(huì)被進(jìn)行分類、輸送到相應(yīng)的“專家”處進(jìn)行解決。DeepSeek V3與R1都屬于MoE模型。這種架構(gòu)的優(yōu)勢(shì)是其能夠，并且在解決任務(wù)時(shí)僅調(diào)動(dòng)與之相應(yīng)的模塊、節(jié)省計(jì)算成本。這也是“AI界拼多多”DeepSeek提升性價(jià)比的殺手锏之一。作為與Qwen3的對(duì)比，DeepSeek V3與R1總參數(shù)規(guī)模為6710億參數(shù)，激活參數(shù)為370億。

性能方面，官方信息顯示，Qwen旗艦?zāi)Ｐ?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級(jí)模型相比，均展現(xiàn)出優(yōu)勢(shì)。小型MoE模型Qwen3-30B-A3B ，相比DeepSeek V3、GPT 4o、谷歌Gemma3-27B-1T等模型同樣表現(xiàn)優(yōu)異。

六個(gè)開源的Dense模型均適用于通用任務(wù)解決，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。值得一提的是參數(shù)量極低的Qwen3-4B模型，也在不少任務(wù)中展現(xiàn)出來(lái)相比GPT 4o更為優(yōu)異的成績(jī)。上述模型均在 Apache 2.0 許可下開源。這是一種較為寬松的許可證，允許代碼修改和再發(fā)布（作為開源或商業(yè)軟件）。Qwen3模型還支持 119 種語(yǔ)言和方言，并優(yōu)化了Agent和代碼能力、加強(qiáng)了對(duì)MCP的支持。

02 開源大模型“城頭變換大王旗”

Qwen3的發(fā)布，距離DeepSeek R1的亮相已過(guò)去了3個(gè)多月。1月20日，憑借比肩OpenAI o1的性能、低廉的成本，以及對(duì)大模型研發(fā)范式的改變，R1一經(jīng)發(fā)布就榮膺開源大模型世界的“無(wú)冕之王”至今。

在此期間，包含科大訊飛（星火X1）、百度（文心X1）、OpenAI（o3 mini）、阿里（Qwen-QwQ-32B）、字節(jié)（豆包1.5深度思考）在內(nèi)的玩家紛紛下場(chǎng)推理模型，但至多是接近R1性能或?qū)崿F(xiàn)部分超越，未能真正挑動(dòng)后者的位置。在大模型的世界里，數(shù)月的時(shí)間已足夠一代新王換舊王。正是這樣的背景下，關(guān)注的目光落到了Qwen3身上。與許多國(guó)內(nèi)玩家不同的是，早在2024年8月，阿里就公開站到了開源自研模型的大廠陣營(yíng)之中。

在這條最終被DeepSeek驗(yàn)證可行的市場(chǎng)之路上，Qwen可以說(shuō)已經(jīng)提前拿到了不少牌。至今Qwen系列產(chǎn)品已在不少開源榜單中排名靠前。如據(jù)全球最大AI開源社區(qū)Huggingface 4月29日顯示，在audio-text-to-text任務(wù)類目下，Qwen的兩款模型熱度居前。Huggingface 于2月10日發(fā)布的開源大模型榜單“Open LLM Leaderboard”也顯示，排名前十的開源大模型全部是基于Qwen開源模型二次訓(xùn)練的衍生模型。

圖源/Huggingface?

在生態(tài)活躍度方面，Qwen也處于全球前列。據(jù)官方數(shù)據(jù)顯示，從2024年下半年開始至2025年1月底，基于Qwen系列的衍生模型數(shù)量超過(guò)了美國(guó)Llama系列，超過(guò)9萬(wàn)個(gè)，已是全球最大的AI模型家族，超過(guò)了Meta 旗下的Llama家族。

不過(guò)對(duì)比Llama系列，Qwen系列開源模型在下載量方面與前者仍有差距。據(jù)Meta首席執(zhí)行官Zuck Burg在今年3月份宣布，Llama的下載量已達(dá)到10億次；而Qwen系列的下載量還在千萬(wàn)級(jí)別。

在Qwen3發(fā)布這一天，周靖人接受了“晚點(diǎn)”的采訪，他講道，判斷“開源生態(tài)跑出來(lái)了”的指標(biāo)主要有兩點(diǎn)“一是看開發(fā)者的選擇，二是看性能指標(biāo)”。本次隨著Qwen3的發(fā)布，這款新模型通過(guò)在性能指標(biāo)和成本方面超越DeepSeek R1，以及創(chuàng)新的混合推理模式，登頂為全球最強(qiáng)大的開源大模型，又為Qwen增添了一張好牌。

但在這之后，還有更多的挑戰(zhàn)等待著它。接下來(lái)DeepSeek R2的亮相，也將為整個(gè)市場(chǎng)增添新的變數(shù)。在貫徹“第一通吃（winner-takes-all）”定律的開源市場(chǎng)，競(jìng)爭(zhēng)遠(yuǎn)未到達(dá)終局、誰(shuí)能成為最終的“winner”還充滿未知，無(wú)論是DeepSeek，還是Qwen和Llama，都仍需要為不下牌桌而持續(xù)努力。不過(guò)值得欣慰的是，雖然戰(zhàn)程未半，至少當(dāng)下的開源大模型“桂冠”仍歸屬于國(guó)產(chǎn)玩家。

記者?董溫淑編輯?高宇雷

本文由人人都是產(chǎn)品經(jīng)理作者【電廠】，微信公眾號(hào)：【電廠】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自阿里巴巴官網(wǎng)

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App