Qwen3來了,DeepSeek R2還會遠(yuǎn)嗎?
阿里凌晨發(fā)布新一代通義千問模型Qwen3,作為全球首個開源的混合推理模型,性能強大且性價比高,支持多種語言和廣泛應(yīng)用場景。而面對Qwen3及百度文心4.5 Turbo的挑戰(zhàn),DeepSeek靜默以對,卻讓外界更加期待其即將發(fā)布的R2模型,一場AI模型的激烈競爭即將展開。
阿里開源新一代通義千問模型 Qwen3。
這是全球第一個開源的混合推理模型。
什么叫混合推理模型?簡單說就像把DeepSeek的V3與R1糅合在一起,不必手動開關(guān)閉推理模式,就能同時進行普通思考和長思考。
Qwen3模型能力號稱登頂全球,體現(xiàn)在幾個亮點上。
01 大而全
這次共發(fā)布八個模型:六個Dense稠密模型:Qwen3-0.6B、1.7B、4B、8B、14B、32B;兩個MoE模型:Qwen3-30B-A3B、旗艦版的Qwen3-235B-A22B。
八個模型就像全家桶,小到0.6B,大到235B,滿足全方位需求,無論個人日常使用或公司商用都沒有任何限制。
02 頂級性能
Qwen3-4B的小模型能和之前的QwQ-32B不分伯仲;而Qwen3-30B-A3B對于QwQ-32B則是全方位的碾壓。最強的旗艦版Qwen3-235B-A22B更是直接與世界頂級的OpenAI-o1、DeepSeek-R1對標(biāo)。
03 性價比高
更重要的是,便宜啊。旗艦版的Qwen3-235B-A22B部署成本只要DeepSeek-R1的三分之一。要知道,DeepSeek是以低成本撬開美國算力鐵幕的,“卷”這個字,只有中國企業(yè)才能詮釋得淋漓盡致。
04 更加開放
與國外的Claude3.7一樣,千問3支持MCP協(xié)議,也是國內(nèi)首個原生支持MCP的大模型??梢栽赒wen3接入即夢、Gihub等工具,實現(xiàn)一模多用。
05 應(yīng)用更廣
相比上一代Qwen2.5支持29種語言,Qwen3支持多達(dá)119種語言,真正走向全世界了。
無論Qwen3,還是前段時間百度發(fā)布的文心4.5 Turbo,在性能和性價比上都宣稱超過了DeepSeek-R1。不過,面對挑戰(zhàn),DeepSeek依舊靜如處子。
沉默,往往是爆發(fā)前的狀態(tài),以DeepSeek過往開發(fā)經(jīng)驗,時候差不多了。
4月27日晚,全球最大AI開源社區(qū)Hugging Face的首席執(zhí)行官,Clément Delangue在社交平臺發(fā)布了一條耐人尋味的動態(tài)——三個眼睛的表情符號,同時附上DeepSeek團隊在Hugging Face平臺的官方資源庫入口。
這則無聲的寓言,是否預(yù)示著DeepSeek-R2進入了發(fā)布倒計時?
進而有網(wǎng)友貼出了所謂DeepSeek-R2大模型的詳細(xì)技術(shù)參數(shù)。
1、擁有 1.2萬億參數(shù),活躍參數(shù)為 780億,采用混合 MoE架構(gòu)。
2、成本比 GPT-4o便宜 97.3%(輸入每百萬次 0.07美元,輸出每百萬次 0.27美元)。
3、使用了 5.2PB的訓(xùn)練數(shù)據(jù),在 C-Eval2.0測試中取得了 89.7%的得分。
4、視覺能力更強,在 COCO測試集上達(dá)到了 92.4%。
對于這些消息,DeepSeek尚未發(fā)表任何辟謠聲明,不禁讓人浮想聯(lián)翩。
自從2月DeepSeek揭開AI時代大幕后,人工智能就進入以中美為逐鹿場,群雄并起的春秋時代,各路豪杰你方唱罷我登場。即將到來的5月,這場未來之爭將進入更加激烈的階段,DeepSeek R2無疑是那個最值得期待的主角。
雪萊說:冬天來了,春天還會遠(yuǎn)嗎?
本文由人人都是產(chǎn)品經(jīng)理作者【微果醬】,微信公眾號:【AI微果醬】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!