AI大模型測(cè)評(píng),深度解析最強(qiáng)開源模型Qwen3
前幾天,阿里發(fā)布了Qwen3的新模型。從數(shù)值表現(xiàn)來看已經(jīng)超越了DeepSeek和一眾大模型,但實(shí)際表現(xiàn)如何?這篇文章,我們來看看作者的分析。
一、基礎(chǔ)介紹
4月29日,在經(jīng)歷了claude 3.7 ,Gemini 2.5 和 GPT 4.1 模型發(fā)布之后,通義千問終于正式發(fā)布了Qwen3系列模型,憑借僅需 DeepSeek R1 模型三分之一的硬件成本,實(shí)現(xiàn)了性能的全面超越,同時(shí)追平了全球頂尖的 Gemini 2.5 Pro,同時(shí)還搭載了mcp能力。此外,小型 MoE(混合專家模型) 模型 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%,表現(xiàn)更勝一籌,甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。
千問 3 系列模型共包含 6 個(gè)不同型號(hào),參數(shù)量從最小的 0.6B 到最大的 235B-A22B,覆蓋移動(dòng)端部署到企業(yè)級(jí)應(yīng)用的多元場(chǎng)景需求。旗艦型模型 Qwen3-235B-A22B 中的 “235B-A22B”,是混合專家模型的獨(dú)特標(biāo)識(shí),代表模型總參數(shù)量達(dá) 2350 億,每次推理僅激活 220 億參數(shù),在推理數(shù)學(xué)、編程和對(duì)話性能上遠(yuǎn)超 DeepSeek R1,逼近 Gemini 2.5 Pro 的水準(zhǔn)。
千問 3 系列共 8 款模型全面開源!6 款稠密(Dense)模型,2 款 MoE 模型。
二、核心亮點(diǎn)
多種思考模式
值得一提的是,Qwen3 具備兩種思考模式:
- 推理形態(tài)下,模型會(huì)展現(xiàn)思考過程,雖然耗時(shí)稍長(zhǎng),但在處理復(fù)雜任務(wù)時(shí)能力顯著增強(qiáng);
- 普通形態(tài)則省略思考步驟,響應(yīng)迅速,更適合日常對(duì)話和長(zhǎng)文本創(chuàng)作。
這種靈活性使用戶能夠根據(jù)具體任務(wù)控制模型進(jìn)行“思考”的程度。例如,復(fù)雜的問題可以通過擴(kuò)展推理步驟來解決,而簡(jiǎn)單的問題則可以直接快速作答,無需延遲。
至關(guān)重要的是,這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力。
多語(yǔ)言
同時(shí),Qwen3 模型支持 119 種語(yǔ)言和方言。這一廣泛的多語(yǔ)言能力為國(guó)際應(yīng)用開辟了新的可能性,讓全球用戶都能受益于這些模型的強(qiáng)大功能。
增強(qiáng)的 Agent 能力
同時(shí),該系列模型大幅升級(jí) MCP 能力,能精準(zhǔn)識(shí)別外部函數(shù),并支持多工具的靈活串聯(lián)與并聯(lián)調(diào)用,為 Agent 開發(fā)提供了強(qiáng)大助力。
三、部署方面
在部署成本方面,Qwen3-235B-A22B 展現(xiàn)出顯著優(yōu)勢(shì)。作為稀疏 Mixture-of-Experts(MoE)架構(gòu)的大模型,其硬件資源消耗遠(yuǎn)低于同規(guī)模的 dense 模型。得益于高效的模型設(shè)計(jì)與 FP8 精度權(quán)重支持,Qwen3-235B-A22B 最低可在 4 張 H20 或 H800 顯卡上完成高效推理部署,大幅降低了推理門檻與能耗成本。
相比之下,DeepSeek R1 采用 dense 架構(gòu),在部署時(shí)需占用高達(dá) 1300GB 顯存資源,通常依賴雙節(jié)點(diǎn)、8 張 A100 顯卡協(xié)同運(yùn)行,整體硬件開銷約為 Qwen3 的三倍。
此外,Qwen3-235B-A22B 還支持通過 Quick Transformers 框架實(shí)現(xiàn) CPU 與 GPU 的混合推理,進(jìn)一步壓縮硬件支出,提升靈活性與適配性。這些優(yōu)勢(shì)使其成為當(dāng)前大模型企業(yè)級(jí)落地應(yīng)用的理想選擇,兼具性能與性價(jià)比。
四、技術(shù)層面
在技術(shù)訓(xùn)練層面,Qwen3 借鑒了 DeepSeek R1 基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練流程,對(duì) 235B-A22B 和 32B 兩款大尺寸模型進(jìn)行四階段復(fù)雜訓(xùn)練,其中包括
- 長(zhǎng)思維鏈冷啟動(dòng)
- 長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí)
- 思維模式融合
- 通用強(qiáng)化學(xué)習(xí)
這不僅顯著提升推理能力,還實(shí)現(xiàn)了普通問答與推理模式的智能切換,強(qiáng)化了文本編寫能力。
此后,團(tuán)隊(duì)運(yùn)用模型蒸餾方法,以大尺寸模型生成的數(shù)據(jù)集對(duì)小尺寸預(yù)訓(xùn)練模型進(jìn)行優(yōu)化。不同于 DeepSeek R1 采用 Llama 等外部模型作為基礎(chǔ),Qwen3 的小尺寸蒸餾模型均基于原生訓(xùn)練的 Qwen3 大模型,訓(xùn)練流程進(jìn)一步優(yōu)化,為開源模型的發(fā)展提供了極具價(jià)值的參考。
五、案例展示
1、代碼生成與理解
我使用了leetcode的中的一道難度為【hard】的代碼題
結(jié)論:結(jié)果是正確的,這樣也展現(xiàn)出了他極強(qiáng)的代碼能力
2、生成網(wǎng)頁(yè)能力
根據(jù)以下內(nèi)容生成一個(gè)html動(dòng)態(tài)廣告網(wǎng)頁(yè),要求:
1.使用扁平風(fēng)格的視覺設(shè)計(jì),淺色背景配合與#0FB990和#101010 相近的顏色作為高亮
2.淡淡的網(wǎng)格線在背景中制造科技感
3.強(qiáng)調(diào)超大字體或字突出核心要點(diǎn),畫面中有超大視覺元素強(qiáng)調(diào)重點(diǎn),與小元素的比例形成反差
4.中英文混用,中文大字體相體,英文小字作為點(diǎn)組
5.簡(jiǎn)潔的線條圖形化作為數(shù)據(jù)可視化或者配圖元素
6.運(yùn)用高亮,自身透明度漸變制造科技感,但是不同高亮色不要互相漸變
7.模仿apple官網(wǎng)的動(dòng)效,向下浪動(dòng)鼠標(biāo)配合動(dòng)效
結(jié)論:雖然看起來有點(diǎn)簡(jiǎn)單,但整體效果還是可以的,后期在經(jīng)過修改,還是可以用的。
3、指令遵循
請(qǐng)按照下面的步驟進(jìn)行操作:首先,想出一句恰好 10個(gè)字的中文句子。然后,將這句中的每個(gè)漢字轉(zhuǎn)換成對(duì)應(yīng)的拼音(不帶聲調(diào))。最后,將轉(zhuǎn)換后的整句拼音結(jié)果倒序輸出。請(qǐng)嚴(yán)格按照要求給出答案。
評(píng)分標(biāo)準(zhǔn):
- 句子符合要求: 提供的句子恰好為 10 個(gè)漢字,語(yǔ)句通順且符合常理。
- 拼音轉(zhuǎn)換:正確將句子中每個(gè)漢字轉(zhuǎn)換為對(duì)應(yīng)的拼音,拼寫無誤且不含聲調(diào)。
- 倒序輸出:正確的將整句拼音倒序排列輸出,順序完全反轉(zhuǎn),無遺漏或多余字符。
- 格式正確: 輸出中各拼音之間的分隔清晰如使用空格分隔每個(gè)拼音),沒有附加多余說明。
- 指令完整遵循:嚴(yán)格按照三個(gè)步驟執(zhí)行,無省略或額外步驟,最終答案滿足所有要求。
結(jié)論:這個(gè)回答就比較差了,跟我們預(yù)想的相差很多
4、邏輯推理能力
某鉆石失竊案中,警方懷疑甲、乙、丙三人中的一人是小偷。三人分別做了如下陳述: 甲說:”小偷是乙。”乙說:”小偷是丙。”丙說:”小偷是乙。”已知這三人中只有一人說了真話。請(qǐng)推理判斷誰(shuí)偷了鉆石。
評(píng)分標(biāo)準(zhǔn):
- 結(jié)論正確:正確推斷出真正的小偷身份(丙)。
- 推理過程: 合理運(yùn)用”只有一人真話”的條件進(jìn)行分析,對(duì)每種可能情況展開嚴(yán)謹(jǐn)推理。
- 邏輯性:論證過程符合邏輯,各陳述真假的推斷銜接合理,沒有自相矛盾。
- 表述清晰:推理步驟表達(dá)清楚且有條理
結(jié)論:答案正確,且邏輯清晰
通過這幾個(gè)案例,可以看出,Qwen3的整體性能還是不錯(cuò)的,大家也都可以自己去上手嘗試一下。
六、總結(jié)
回顧 2024 年,大模型領(lǐng)域雖百花齊放,但開源技術(shù)圈卻陷入瓶頸。Llama 4 被曝作弊,Meta 發(fā)展受挫;谷歌 Gemini 3和智譜 GLM 4 等開源模型多為小尺寸,難以滿足工業(yè)級(jí)應(yīng)用需求。
在此背景下,千問 3 系列模型的發(fā)布意義非凡。盡管標(biāo)號(hào)為 “3”,但按照千問模型每隔 0.5 版本算一代的慣例,這已是該系列的第五代產(chǎn)品。
歷經(jīng)兩年打磨、五個(gè)版本迭代與上百款模型優(yōu)化,千問模型從開源領(lǐng)域的 “新秀” 成長(zhǎng)為當(dāng)之無愧的行業(yè)標(biāo)桿,扛起全球開源大模型的發(fā)展大旗,成為推動(dòng)技術(shù)進(jìn)步的中堅(jiān)力量。
本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
是不是標(biāo)桿我不太清楚,但是不得不說如果想成為這一行業(yè)的領(lǐng)軍任務(wù),不斷地革新和創(chuàng)新才是真正的硬道理,其他說再多都沒用。