DeepSeek V3.1 Base突襲上線!擊敗Claude 4編程爆表,全網(wǎng)在蹲R(shí)2和V4
在大模型進(jìn)入“能力分化”階段后,編程成為最具辨識(shí)度的競(jìng)技場(chǎng)。DeepSeek V3.1 Base 憑借超強(qiáng)代碼生成能力擊敗 Claude 4,標(biāo)志著國(guó)產(chǎn)模型在垂類任務(wù)上邁出關(guān)鍵一步。本文深度解析其性能表現(xiàn)、技術(shù)策略與迭代節(jié)奏,揭示 RAG、Agent 之外的另一條突圍路徑。
就在昨晚,DeepSeek官方悄然上線了全新的V3.1版本,上下文長(zhǎng)度拓展到128k。
本次開源的V3.1模型擁有685B參數(shù),支持多種精度格式,從BF16到FP8。
綜合公開信息和國(guó)內(nèi)大咖karminski3的實(shí)測(cè),V3.1此次更新亮點(diǎn)有:
- 編程能力:表現(xiàn)突出,根據(jù)社區(qū)使用Aider測(cè)試數(shù)據(jù),V3.1在開源模型中霸榜。
- 性能突破:V3.1在Aider編程基準(zhǔn)測(cè)試中取得71.6%高分,超越ClaudeOpus4,同時(shí)推理和響應(yīng)速度更快。
- 原生搜索:新增了原生「searchtoken」的支持,這意味著搜索的支持更好。
- 架構(gòu)創(chuàng)新:線上模型去除「R1」標(biāo)識(shí),分析稱DeepSeek未來(lái)有望采用「混合架構(gòu)」。
- 成本優(yōu)勢(shì):每次完整編程任務(wù)僅需1.01美元,成本僅為專有系統(tǒng)的六十分之一。
值得一提的是,官方群中強(qiáng)調(diào)拓展至128K上下文,此前V3版本就已經(jīng)支持。
對(duì)于這波更新,大家的熱情可謂是相當(dāng)高漲。
即便還未公布模型卡,DeepSeek V3.1就已經(jīng)在Hugging Face的趨勢(shì)榜上排到了第四。
DeepSeek粉絲數(shù)已破8萬(wàn)
看到這里,網(wǎng)友們更期待R2的發(fā)布了!
混合推理,編程擊敗Claude 4
這次最明顯的變化是,DeepSeek在官方APP和網(wǎng)頁(yè)端上,把深度思考(R1)中的「R1」去掉了。
同時(shí),與V3-base相比,DeepSeek V3.1新增了四個(gè)特殊Token:
- <|search▁begin|>(id:128796)
- <|search▁end|>(id:128797)
- <think>(id:128798)
- </think>(id:128799)
對(duì)此,有推測(cè)認(rèn)為,這可能暗示推理模型與非推理模型的融合。
在編程方面,根據(jù)網(wǎng)友曝出的結(jié)果,DeepSeek V3.1在Aider Polyglot多語(yǔ)言編程測(cè)試中拿下了71.6%高分,一舉擊敗了Claude 4 Opus、DeepSeek R1。
而且,它的成本僅1美元,成為非推理模型中的SOTA。
最鮮明的對(duì)比,V3.1編程性能比Claude 4高1%,成本要低68倍。
在SVGBench基準(zhǔn)上,V3.1實(shí)力僅次于GPT-4.1-mini,遠(yuǎn)超DeepSeek R1的實(shí)力。
在MMLU多任務(wù)語(yǔ)言理解方面,DeepSeek V3.1毫不遜色于GPT-5。不過(guò)在,編程、研究生級(jí)基準(zhǔn)問(wèn)答、軟件工程上,V3.1與之有一定的差距。
一位網(wǎng)友實(shí)測(cè),模擬六邊形中小球自由落體的物理測(cè)試,DeepSeek V3.1理解力明顯提升。
一手實(shí)測(cè)
第一時(shí)間,我們對(duì)V3.1進(jìn)行了實(shí)測(cè),首先是此次模型更新的重點(diǎn):上下文長(zhǎng)度。
假設(shè)對(duì)于中文而言,1個(gè)token ≈ 1–1.3個(gè)漢字,那么這128K tokens ≈ 100,000–160,000漢字。
相當(dāng)于整本《紅樓夢(mèng)》正文(約80–100萬(wàn)字)的1/6–1/8,或者一篇超長(zhǎng)博士論文/大部頭學(xué)術(shù)專著。
實(shí)際測(cè)試也很準(zhǔn)確,DeepSeek告訴我們它只能閱讀差不多9%,也就是大約十分之一。
由于總結(jié)內(nèi)容太長(zhǎng),我們截取了前三回,你覺得這個(gè)總結(jié)的怎么樣?
在128K上下文測(cè)試中,DeepSeek-V3.1輸出速度相比以往獲得較大提升,并且在工程上做了一些優(yōu)化。
此次更新,DeepSeek重點(diǎn)強(qiáng)調(diào)了對(duì)上下文的支持。
整個(gè)活,給DeepSeek-V3.1上點(diǎn)壓力,讓它根據(jù)「夢(mèng)」這個(gè)字,輸出盡可能多的內(nèi)容,盡量達(dá)到上下文極限。
不過(guò)最后,差不多只輸出了3000字左右,模型就停止了輸出。
再來(lái)看下推理能力。
經(jīng)典的9.11和9.9比大小問(wèn)題,兩種詢問(wèn)方式都能正確做答。
這次更新的一大體感還是速度變快了很多。
最后再來(lái)看看編程能力。
DeepSeek的上一個(gè)模型是R1-0528,主打的是編程能力。
看看這次V3.1是否有更大的提升。
最終結(jié)果只能說(shuō),打個(gè)80分吧,基本要求都滿足了,但是畫面風(fēng)格和顏色變換功能并沒有完美實(shí)現(xiàn)。
并且和R1-0528的結(jié)果相比,兩者之間還是有些差距的,但孰好孰壞還需看個(gè)人偏好。
以下是開啟思考模式后的結(jié)果,你覺得哪個(gè)更好?
接下來(lái),看看DeepSeek V3.1能否復(fù)刻出GPT-5發(fā)布會(huì)上的法語(yǔ)學(xué)習(xí)小程序。
我們?cè)賮?lái)讓V3.1畫一個(gè)自己的SVG自畫像,兩種效果著實(shí)有些抽象。
參考資料:HYX
https://weibo.com/2169039837/Q0FC4lmeo
https://x.com/karminski3/status/1957928641884766314
https://github.com/johnbean393/SVGBench/
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
編輯:桃子 定慧
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Deepseek官網(wǎng)截圖
- 目前還沒評(píng)論,等你發(fā)揮!