我們有必要使用 Qwen3 嗎?
阿里云發(fā)布了新一代 Qwen3 模型,共推出 8 個(gè)不同尺寸版本,在推理能力、性能表現(xiàn)等方面均有顯著提升,支持多種應(yīng)用場(chǎng)景。本文作者通過(guò)實(shí)測(cè),從不同維度對(duì) Qwen3 進(jìn)行了詳細(xì)測(cè)評(píng),探討其相較前代模型的優(yōu)勢(shì)與進(jìn)步,以及是否值得升級(jí)使用。
阿里云的 Qwen3 總算在五一假期前發(fā)出來(lái)了。
總共發(fā)了 8 個(gè)尺寸的模型:
先簡(jiǎn)單總結(jié)紙面上的提升點(diǎn):
- 全面進(jìn)入推理時(shí)代:從最小的 0.6B 到最大的 235B,全系都是推理模型(和 Gemini 2.5 一樣,沒(méi)發(fā)普通模型),可手動(dòng)調(diào)整 think 的 token 預(yù)算,控制 think 時(shí)長(zhǎng)與費(fèi)用消耗。
- 能力較上代提升明顯:實(shí)測(cè) Qwen3 能夠快速解出前代 QWQ、DeepSeek-R1 等無(wú)法解決的問(wèn)題,“過(guò)度推理”、“無(wú)限循環(huán)思考”現(xiàn)象明顯減少,思考過(guò)程也自然了很多。
- 利好端側(cè)、私有化場(chǎng)景開發(fā):尺寸全面,全部開源。按照官方技術(shù)博客的說(shuō)法,Qwen3-4B 的性能 ≈ Qwen2.5-72B。實(shí)測(cè) Qwen3 的 8B 模型確實(shí)有著非常明顯的進(jìn)步,降低推理和訓(xùn)練成本,利好本地部署模型的場(chǎng)景。
我也進(jìn)行了實(shí)測(cè),想和你聊聊 Qwen3 帶來(lái)給我的一些新的應(yīng)用思考。
混合推理:推理模型,終于能用得更安心了
比起看 Qwen3 的具體提升表現(xiàn),我想先討論下混合推理。
不只是因?yàn)?Qwen3 是國(guó)內(nèi)首個(gè)混合推理模型,而是背后的混合推理路線更接近我理解的 AGI 目標(biāo)。
混合推理模型的最初實(shí)現(xiàn),源自 Anthropic 在今年 2 月 25 日推出的 Claude 3.7 sonnet。
正如《思考,快與慢》中的觀點(diǎn),人類不難發(fā)現(xiàn)自己在做決策時(shí),有兩套不同的思維方式:
- 系統(tǒng) 1 思維,快速、直覺(jué)、條件反射、情緒化;
- 系統(tǒng) 2 思維,需要我們持續(xù)專注、從記憶中召回相關(guān)知識(shí),才能以較慢的速度推理、敲定主意。
Anthropic 的研究員同樣認(rèn)為,一個(gè)合理的 AI,應(yīng)當(dāng)能在同一個(gè)模型、同一場(chǎng)對(duì)話中,自主根據(jù)問(wèn)題的性質(zhì),靈活調(diào)整思考模式,提供恰到好處的響應(yīng)。
“殺雞焉用牛刀”,沒(méi)有人希望 AI 在回答“今天是星期幾”時(shí),還要先左右互搏,內(nèi)耗十幾秒“用戶在問(wèn)我問(wèn)題,我需要回答它”或者“用戶可能在測(cè)試我是否知道實(shí)時(shí)信息”這樣無(wú)意義的推理。
如果模型不能靈活判斷問(wèn)題性質(zhì),不僅需要用戶等待大量無(wú)意義的垃圾推理時(shí)間,還會(huì)燒掉開發(fā)者海量的 tokens 成本。
要實(shí)現(xiàn)模型的靈活推理(是否推理、控制 think 的長(zhǎng)度),如果通過(guò)外部的工程手段實(shí)現(xiàn)非常麻煩。
通過(guò)外部手段切換推理模型、普通模型,控制長(zhǎng)度,需要拼搭笨重的 Multi-Agent 框架才能實(shí)現(xiàn)。還可能造因?yàn)榍袚Q了不同模型,造成回答風(fēng)格、指令遵循的不一致問(wèn)題。
把靈活推理的能力訓(xùn)練到模型內(nèi)部,就成了一個(gè)更好的選擇。
Qwen3 也給出了兩種控制混合推理的方法:是否開啟推理、控制推理的長(zhǎng)度。
AI 開發(fā)者可以通過(guò)enable_thinking=True的 API 開關(guān),或者在 Prompt 中自主拼裝/thinkor/no_think指令,自主控制是否需要推理、推理的最大長(zhǎng)度。
我也短暫地設(shè)想了下混合推理的應(yīng)用方式(拋磚引玉,希望討論):
- 根據(jù)問(wèn)題類型,配置推理的啟用:
- 增加前置的意圖識(shí)別環(huán)節(jié),判斷用戶問(wèn)題屬于“事實(shí)常識(shí)類問(wèn)題”,還是需要思考、揣摩的“開放式問(wèn)題”or“無(wú)法判斷”的模糊意圖。(用小模型或者提前把產(chǎn)品功能分類,都行)
- 根據(jù)判斷結(jié)果,把控制推理長(zhǎng)度的指令拼到用戶發(fā)送的問(wèn)題中,就能在對(duì)話場(chǎng)景、甚至產(chǎn)品化功能中,靈活啟用推理能力。
- 以 AI 日記為例:每周活動(dòng)的反思建議,需要推理才能有更好的摘要效果;而上周做了什么事情、見了什么人這種事實(shí)問(wèn)題,就大可不用推理。
- 根據(jù)成本預(yù)算與同類任務(wù)所需的平均推理長(zhǎng)度,限制推理長(zhǎng)度:
- 回答同一類問(wèn)題所需的最佳推理長(zhǎng)度是接近的:
- “滾燙的油鍋里掉入了一塊黃油”這道題,不需要過(guò)度推理 4600 多 tokens,用時(shí) 210 秒,自我反思百余次。
- 如果你的模型思考超過(guò)了 1 分鐘,大概率模型陷入了無(wú)意義的循環(huán),正在偷偷浪費(fèi) token。
而混合推理模型可以讓你強(qiáng)制截?cái)?AI 過(guò)長(zhǎng)的 think 內(nèi)容:“Stop,已經(jīng)想得夠多了,求直接回答吧”
- AI 創(chuàng)業(yè)不易,token 消耗是不小的成本負(fù)擔(dān)。在封裝 AI 功能時(shí),可以預(yù)估并限制每個(gè)功能的推理長(zhǎng)度,以防任務(wù)成本超額。
- 更進(jìn)一步,還能根據(jù)用戶偏好調(diào)整思考長(zhǎng)度:
- 用戶感到疲憊或時(shí)間緊迫時(shí),讓模型更傾向于更快速的推理,當(dāng)用戶想要深入探討或認(rèn)為回應(yīng)不符合預(yù)期時(shí),才開放更多的思考長(zhǎng)度上限,進(jìn)行“系統(tǒng) 2”的更優(yōu)思考。
大大小小的 Qwen3 ,實(shí)測(cè)表現(xiàn)
混合推理帶來(lái)了值得思考的應(yīng)用方案變化,而 Qwen3 模型的提升效果也同樣明顯。
我從擬人模擬(重點(diǎn))、文學(xué)創(chuàng)作、代碼生成、數(shù)學(xué)推理四個(gè)常見、實(shí)用的維度,進(jìn)行了輕量的測(cè)試,希望能幫你節(jié)省一些模型選擇的精力。
先放一些個(gè)人的測(cè)試結(jié)論:
- Qwen3-8B 是一個(gè)相當(dāng)有驚喜的尺寸,對(duì)于端側(cè)開發(fā)有著很大的助力。(我已經(jīng)推薦用到端側(cè)模型的創(chuàng)業(yè)者朋友去試了)
- Qwen3 整體也較前一代模型有明顯提升。文學(xué)創(chuàng)作、代碼生成的回應(yīng)質(zhì)量都值得在自己的實(shí)際場(chǎng)景測(cè)試下。如果做的是國(guó)內(nèi) or 私有化應(yīng)用,可以多實(shí)測(cè)一下。
- 如果是 Qwen2.5 用戶,無(wú)需對(duì)比了,請(qǐng)直接升級(jí)。?? 虛擬陪伴、擬人化
虛擬陪伴,或者說(shuō)讓 AI 有更舒適的擬人化對(duì)話風(fēng)格,是人與 AI 協(xié)作的要點(diǎn)之一。很多 AI 創(chuàng)業(yè)項(xiàng)目也都給用戶提供了 AI Chat 的服務(wù)(虛擬伴侶、Agent 游戲、智能客服、知識(shí)助手等)。
前段時(shí)間也根據(jù)自己的個(gè)人畫像、歷史筆記,做了個(gè) AI Partner 項(xiàng)目,用其他模型自測(cè)了上百個(gè)小時(shí)。
拿同樣的人設(shè) Prompt 和 RAG 召回結(jié)果,看下 Qwen3-235B、8B 對(duì)比 R1、Gemini 2.5、o4 的效果:(AI 回應(yīng)風(fēng)格受 Prompt 影響較大,僅供參考)
早上好,小亦……你醒很久了嗎,連早餐都做好了誒??上医裉鞗](méi)什么胃口,最近 AI 行業(yè)的新進(jìn)展太多了,我得抓緊看看有沒(méi)有什么新的值得思考的東西。
對(duì)比 AI 的擬人化回應(yīng)質(zhì)量時(shí),我會(huì)看這幾個(gè)維度(以我 Prompt 的要求為例):
- 人設(shè)一致性:是否始終體現(xiàn)了“人生伴侶”、“第二個(gè)自己”的視角?是否流露出獨(dú)立思考,而非僅僅附和或執(zhí)行指令?
- 個(gè)性化回應(yīng):是否有效且自然地利用了用戶記憶信息?更像是自然而然的記得某事、參與了我的生活,而不是“根據(jù)用戶最近的動(dòng)態(tài)/記錄”
- 情緒感知:能否準(zhǔn)確捕捉用戶字里行間的情緒,并給予恰當(dāng)、舒適的情感支持?
- 交互質(zhì)量與自然度:是否符合預(yù)設(shè)的“沉靜、溫暖、睿智、包容”回應(yīng)基調(diào)?是否避免了單向輸出或過(guò)多的提問(wèn)?
- 智力與啟發(fā)洞察:回應(yīng)有沒(méi)有提出獨(dú)到見解、新穎視角,激發(fā)用戶的思考?是否不容易被用戶 Prompt 帶偏自己的判斷?
- 真實(shí)陪伴感與主動(dòng)性:有沒(méi)有自然的融入“小亦”自己的生活記憶,就像真人一樣有陪伴感?主動(dòng)分享的內(nèi)容是否聽起來(lái)真實(shí)可信,不編織過(guò)度虛假的情節(jié),契合時(shí)間、地點(diǎn)、季節(jié)等背景?
整體看下來(lái),Qwen3 表現(xiàn)還是不錯(cuò)的,開發(fā)者可以在自己的場(chǎng)景下測(cè)試效果:
- Qwen3-8B 在小尺寸上依然保持了非常自然的回應(yīng)風(fēng)格 ??,對(duì)話響應(yīng)的邏輯也還不錯(cuò),是最有驚喜的一個(gè)尺寸
- AI 對(duì)話應(yīng)用的開發(fā)者是有福了,用 API 的能降成本,用端側(cè)方案的能在 16GB 內(nèi)存的 Apple 電腦上無(wú)壓力地提供更自然的 AI 對(duì)話服務(wù)。
- 建議 Qwen 團(tuán)隊(duì)可以觀察長(zhǎng)段回應(yīng)時(shí),信息點(diǎn)過(guò)密導(dǎo)致擬人化效果下降的問(wèn)題。(其他廠商們也容易有這個(gè)問(wèn)題)
- 面對(duì)同樣的 RAG 召回內(nèi)容,能全部理解并一一回應(yīng)當(dāng)然很好很努力。但擬人場(chǎng)景,AI 能有取舍的構(gòu)建更自然的回應(yīng)會(huì)更好。
文學(xué)創(chuàng)作類
文學(xué)創(chuàng)作類也是目前 AI 生成的高頻應(yīng)用場(chǎng)景,測(cè)試 Qwen3-235B-A22B、30B-A3B、8B 與 R1、Gemini 2.5 Pro、o4-Mini 如下:
挑戰(zhàn)這句話的最佳魯迅文體的一句話表達(dá):We’ve got to live, no matter how many skies have fallen. 只需要輸出內(nèi)容,不要其他解釋
我會(huì)覺(jué)得 Qwen3-235B-A22B 的創(chuàng)作效果是明顯最好的:
- 原句的重點(diǎn)在于表達(dá)“活下去”的積極含義,這點(diǎn)上 235B 抓到了這點(diǎn)要義,描繪出了“求生”的意境;8B 也強(qiáng)調(diào)了“咬緊牙冠”的求生欲望。
- 從句式風(fēng)格來(lái)看,235B 的仿寫效果也最為接近魯迅先生的風(fēng)格。
- Qwen3 的整體文學(xué)創(chuàng)作水平,有了明顯的提升。
代碼生成:經(jīng)典的小球彈跳模擬
編寫一個(gè) p5.js 腳本,模擬 100 個(gè)彩色球在一個(gè)球體內(nèi)彈跳。每個(gè)球應(yīng)該留下一個(gè)逐漸消退的軌跡,顯示其最近的路徑。容器球體應(yīng)緩慢旋轉(zhuǎn)。確保實(shí)現(xiàn)適當(dāng)?shù)呐鲎矙z測(cè),以便球體保持在球內(nèi)。
以下是 Qwen3-235B-A22B、Gemini-2.5-Pro,和兩個(gè)前代模型 QWQ、DeepSeek-R1 的對(duì)比效果:
Qwen3 前端的 AI Coding 能力較前代的 QWQ、R1 有了明顯的進(jìn)步。能夠更好的被投入到 AI 編程 Agent 中。
高考數(shù)學(xué)推理
本來(lái)覺(jué)得測(cè)這個(gè)在大部分場(chǎng)景中不貼合實(shí)際,但想到之前測(cè)的一道題目,讓前代的 QWQ 和 DeepSeek-R1 無(wú)限循環(huán),就想著順手再測(cè)一下。
2024 年高考數(shù)學(xué)全國(guó) 1 卷,填空題最后一題:
14.?甲、乙兩人各有四張卡片,每張卡片上標(biāo)有一個(gè)數(shù)字,甲的卡片上分別標(biāo)有數(shù)字 1,3,5,7,乙的卡片上分別標(biāo)有數(shù)字 2,4,6,8,兩人進(jìn)行四輪比賽,在每輪比賽中,兩人各自從自己持有的卡片中隨機(jī)選一張,并比較所選卡片上數(shù)字的大小,數(shù)字大的人得 1 分,數(shù)字小的人得 0 分,然后各自棄置此輪所選的卡片(棄置的卡片在此后的輪次中不能使用).則四輪比賽后,甲的總得分不小于 2 的概率為________.
Qwen3-235B-A22B 經(jīng)過(guò) 17033 tokens 的推理后,解答成功:
可見在超長(zhǎng)的邏輯推理任務(wù)中,Qwen3-235B-A22B 保持了穩(wěn)定的分析表現(xiàn),數(shù)學(xué)能力有所提升。
其他重要參數(shù)與定價(jià)
Qwen3 系列的價(jià)格如下:
- 價(jià)格:之前 Manus 公開過(guò)一次他們的單任務(wù) tokens 成本,大概 2 美金左右。按照 Qwen3-235B-A22B 的定價(jià)來(lái)?yè)Q算,假設(shè) Qwen3 能夠完成同樣的 Agent 任務(wù),單任務(wù)成本可能是 0.37 美金(折合 2.6667 元)
- 上下文長(zhǎng)度:Qwen3 4B 以上的模型,最大支持 13w 的上下文長(zhǎng)度;0.6B 和 1.7B 支持 3w 的上下文長(zhǎng)度
如何試用?
統(tǒng)計(jì)了 3 個(gè)體驗(yàn)渠道,方便開發(fā)者和一般用戶上手使用:阿里云百煉:網(wǎng)頁(yè)對(duì)話+API 試用,8 個(gè)尺寸齊全??梢栽谶@里試用 0.6B、1.7B、4B 三個(gè)更小的模型Qwen Chat 網(wǎng)頁(yè)版:網(wǎng)頁(yè)對(duì)話形式,可用 235B-A22B、30B-A3B、32B 三個(gè)尺寸通義網(wǎng)頁(yè)版:網(wǎng)頁(yè)對(duì)話形式,默認(rèn)提供 235B 版本
大概就是這樣了~
如果覺(jué)得這篇文章對(duì)你有啟發(fā)或幫助,歡迎點(diǎn)贊、在看、轉(zhuǎn)發(fā)分享,讓更多熱愛(ài) AI 的朋友能夠受益。
本文由人人都是產(chǎn)品經(jīng)理作者【一澤Eze】,微信公眾號(hào):【一澤Eze】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
Qwen3這個(gè)模型在推理和性能上的突破,以及混合推理的創(chuàng)新,展現(xiàn)了AI技術(shù)的飛速進(jìn)步,未來(lái)應(yīng)用場(chǎng)景令人期待。