国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

{{ userInfo.member ? '查看權(quán)益' : '開通會(huì)員' }}

發(fā)布

注冊(cè) | 登錄

DeepSeek V3.1 Base突襲上線！擊敗Claude 4編程爆表，全網(wǎng)在蹲R(shí)2和V4

新智元

2025-08-21

0 評(píng)論 420 瀏覽 0 收藏

10 分鐘

在大模型進(jìn)入“能力分化”階段后，編程成為最具辨識(shí)度的競(jìng)技場(chǎng)。DeepSeek V3.1 Base 憑借超強(qiáng)代碼生成能力擊敗 Claude 4，標(biāo)志著國(guó)產(chǎn)模型在垂類任務(wù)上邁出關(guān)鍵一步。本文深度解析其性能表現(xiàn)、技術(shù)策略與迭代節(jié)奏，揭示 RAG、Agent 之外的另一條突圍路徑。

就在昨晚，DeepSeek官方悄然上線了全新的V3.1版本，上下文長(zhǎng)度拓展到128k。

本次開源的V3.1模型擁有685B參數(shù)，支持多種精度格式，從BF16到FP8。

綜合公開信息和國(guó)內(nèi)大咖karminski3的實(shí)測(cè)，V3.1此次更新亮點(diǎn)有：

編程能力：表現(xiàn)突出，根據(jù)社區(qū)使用Aider測(cè)試數(shù)據(jù)，V3.1在開源模型中霸榜。
性能突破：V3.1在Aider編程基準(zhǔn)測(cè)試中取得71.6%高分，超越ClaudeOpus4，同時(shí)推理和響應(yīng)速度更快。
原生搜索：新增了原生「searchtoken」的支持，這意味著搜索的支持更好。
架構(gòu)創(chuàng)新：線上模型去除「R1」標(biāo)識(shí)，分析稱DeepSeek未來(lái)有望采用「混合架構(gòu)」。
成本優(yōu)勢(shì)：每次完整編程任務(wù)僅需1.01美元，成本僅為專有系統(tǒng)的六十分之一。

值得一提的是，官方群中強(qiáng)調(diào)拓展至128K上下文，此前V3版本就已經(jīng)支持。

對(duì)于這波更新，大家的熱情可謂是相當(dāng)高漲。

即便還未公布模型卡，DeepSeek V3.1就已經(jīng)在Hugging Face的趨勢(shì)榜上排到了第四。

DeepSeek粉絲數(shù)已破8萬(wàn)

看到這里，網(wǎng)友們更期待R2的發(fā)布了！

混合推理，編程擊敗Claude 4

這次最明顯的變化是，DeepSeek在官方APP和網(wǎng)頁(yè)端上，把深度思考（R1）中的「R1」去掉了。

同時(shí)，與V3-base相比，DeepSeek V3.1新增了四個(gè)特殊Token：

<｜search▁begin｜>(id：128796)
<｜search▁end｜>(id：128797)
<think>(id：128798)
</think>(id：128799)

對(duì)此，有推測(cè)認(rèn)為，這可能暗示推理模型與非推理模型的融合。

在編程方面，根據(jù)網(wǎng)友曝出的結(jié)果，DeepSeek V3.1在Aider Polyglot多語(yǔ)言編程測(cè)試中拿下了71.6%高分，一舉擊敗了Claude 4 Opus、DeepSeek R1。

而且，它的成本僅1美元，成為非推理模型中的SOTA。

最鮮明的對(duì)比，V3.1編程性能比Claude 4高1%，成本要低68倍。

在SVGBench基準(zhǔn)上，V3.1實(shí)力僅次于GPT-4.1-mini，遠(yuǎn)超DeepSeek R1的實(shí)力。

在MMLU多任務(wù)語(yǔ)言理解方面，DeepSeek V3.1毫不遜色于GPT-5。不過(guò)在，編程、研究生級(jí)基準(zhǔn)問(wèn)答、軟件工程上，V3.1與之有一定的差距。

一位網(wǎng)友實(shí)測(cè)，模擬六邊形中小球自由落體的物理測(cè)試，DeepSeek V3.1理解力明顯提升。

一手實(shí)測(cè)

第一時(shí)間，我們對(duì)V3.1進(jìn)行了實(shí)測(cè)，首先是此次模型更新的重點(diǎn)：上下文長(zhǎng)度。

假設(shè)對(duì)于中文而言，1個(gè)token ≈ 1–1.3個(gè)漢字，那么這128K tokens ≈ 100,000–160,000漢字。

相當(dāng)于整本《紅樓夢(mèng)》正文（約80–100萬(wàn)字）的1/6–1/8，或者一篇超長(zhǎng)博士論文/大部頭學(xué)術(shù)專著。

實(shí)際測(cè)試也很準(zhǔn)確，DeepSeek告訴我們它只能閱讀差不多9%，也就是大約十分之一。

由于總結(jié)內(nèi)容太長(zhǎng)，我們截取了前三回，你覺得這個(gè)總結(jié)的怎么樣？

在128K上下文測(cè)試中，DeepSeek-V3.1輸出速度相比以往獲得較大提升，并且在工程上做了一些優(yōu)化。

此次更新，DeepSeek重點(diǎn)強(qiáng)調(diào)了對(duì)上下文的支持。

整個(gè)活，給DeepSeek-V3.1上點(diǎn)壓力，讓它根據(jù)「夢(mèng)」這個(gè)字，輸出盡可能多的內(nèi)容，盡量達(dá)到上下文極限。

不過(guò)最后，差不多只輸出了3000字左右，模型就停止了輸出。

再來(lái)看下推理能力。

經(jīng)典的9.11和9.9比大小問(wèn)題，兩種詢問(wèn)方式都能正確做答。

這次更新的一大體感還是速度變快了很多。

最后再來(lái)看看編程能力。

DeepSeek的上一個(gè)模型是R1-0528，主打的是編程能力。

看看這次V3.1是否有更大的提升。

最終結(jié)果只能說(shuō)，打個(gè)80分吧，基本要求都滿足了，但是畫面風(fēng)格和顏色變換功能并沒有完美實(shí)現(xiàn)。

并且和R1-0528的結(jié)果相比，兩者之間還是有些差距的，但孰好孰壞還需看個(gè)人偏好。

以下是開啟思考模式后的結(jié)果，你覺得哪個(gè)更好？

接下來(lái)，看看DeepSeek V3.1能否復(fù)刻出GPT-5發(fā)布會(huì)上的法語(yǔ)學(xué)習(xí)小程序。

我們?cè)賮?lái)讓V3.1畫一個(gè)自己的SVG自畫像，兩種效果著實(shí)有些抽象。

參考資料：HYX

https://weibo.com/2169039837/Q0FC4lmeo

https://x.com/karminski3/status/1957928641884766314

https://github.com/johnbean393/SVGBench/

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

編輯：桃子定慧

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號(hào)：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Deepseek官網(wǎng)截圖

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從"互聯(lián)網(wǎng)+"邁向"智能+"

170篇作品 359090總閱讀量

百麗三十而立：“鞋王”DTC之路的陣痛與重生

03-259390 瀏覽

百麗三十而立：“鞋王”DTC之路的陣痛與重生

遵循SaaS產(chǎn)品發(fā)展紀(jì)律，立于不敗之地

08-185934 瀏覽

遵循SaaS產(chǎn)品發(fā)展紀(jì)律，立于不敗之地

多多短視頻，重返“搬運(yùn)內(nèi)容”原生態(tài)？

03-067125 瀏覽

多多短視頻，重返“搬運(yùn)內(nèi)容”原生態(tài)？

消費(fèi)級(jí)AR市場(chǎng)內(nèi)卷，文旅市場(chǎng)成新藍(lán)海

10-132008 瀏覽

消費(fèi)級(jí)AR市場(chǎng)內(nèi)卷，文旅市場(chǎng)成新藍(lán)海

東南亞出海洞察：去東南亞為直播電商開荒，沒有超頭主播，貨品供給不足……

06-051627 瀏覽

東南亞出海洞察：去東南亞為直播電商開荒，沒有超頭主播，貨品供給不足……

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

專訪蘋果高級(jí)副總裁Craig和副總裁Alan：iPhone誕生16年，交互設(shè)計(jì)走向何方？

10-214164 瀏覽
電商出海，20年彷徨

02-023934 瀏覽
占領(lǐng)手機(jī)，銀行App的隱秘戰(zhàn)事

02-225308 瀏覽