DeepSeek V3.1:開啟混合智能與Agent時代的新紀元
隨著 AI 技術向更智能、更高效的方向演進,一款新一代大模型憑借混合推理架構、強大 Agent 能力及對國產芯片的優(yōu)化,在性能、成本控制與應用適配等維度實現(xiàn)突破,不僅刷新了行業(yè)基準測試成績,也為推動 AI 向實用化、國產化方向發(fā)展提供了新可能。
2025年8月21日,中國AI公司深度求索(DeepSeek)正式推出新一代大模型DeepSeek V3.1,它以混合推理架構和強大的Agent能力,標志著人工智能正式邁入“Agent時代”的新階段。8月21日,中國人工智能領域迎來一個重要時刻。深度求索(DeepSeek)正式發(fā)布了其新一代大模型——DeepSeek V3.1。此次發(fā)布沒有盛大的發(fā)布會,而是通過官方渠道靜靜宣布,但它在AI社區(qū)和開發(fā)者中引發(fā)了巨大反響。作為DeepSeek V3的升級版本,V3.1引入了革命性的混合推理架構,首次在生產就緒的模型中實現(xiàn)了思考模式與非思考模式的無縫切換。這個擁有6850億參數(shù)的巨型模型(685B參數(shù))。不僅在多項基準測試中表現(xiàn)出色,更在代碼生成、軟件工程和復雜問題解決方面展現(xiàn)出了超越前代和競爭對手的性能。同時,它還對國產芯片進行了專門優(yōu)化,為中國AI生態(tài)的發(fā)展提供了新動力。
01 模型架構:混合推理的革命性突破
DeepSeek V3.1最顯著的創(chuàng)新是其混合推理架構(Hybrid Reasoning Architecture),它成功將思考模式與非思考模式整合到單一模型中。這種設計允許用戶根據(jù)任務復雜度,自由切換模型的“深度思考”狀態(tài)。在官方App和網頁端,用戶只需點擊“深度思考”按鈕,就能激活模型的增強推理能力。通過API調用時,開發(fā)者可以選擇使用“deepseek-chat”(非思考模式)或“deepseek-reasoner”(思考模式)不同端點,滿足不同場景的需求。
模型的技術規(guī)格令人印象深刻。DeepSeek V3.1擁有6850億參數(shù)(685B),但通過混合專家(Mixture-of-Experts,MoE)架構,每個令牌僅激活370億參數(shù)(約5.5%的激活率),實現(xiàn)了效率與性能的平衡。模型的上下文窗口擴展至128K個令牌,是前代64k的兩倍,使其能夠處理更長的文檔和維持更復雜的多輪對話。
02 性能表現(xiàn):領先行業(yè)的基準
測試結果在多項基準測試中,DeepSeek V3.1展現(xiàn)出了卓越的性能。根據(jù)評測數(shù)據(jù),V3.1的表現(xiàn)如下:在Aider編程測試中達到了71.6%的通過率,超過了Claude Opus的70.6%。在軟件工程能力方面,V3.1取得了顯著進步。它在SWE-bench Verified測試中達到了66.0%的成功率,相比前代V3-0324的45.4%有了大幅提升。在Terminal-Bench測試中,V3.1得分達到31.3%,比前代提高了135%。數(shù)學和科學推理方面,V3.1同樣表現(xiàn)優(yōu)異。在AIME 2024測試中,思考模式達到了93.1%的準確率,在GPQA-Diamond測試中取得了80.1%的準確率。多任務語言理解(MMLU)測試中,V3.1獲得了88.5%的得分,與國際頂尖模型媲美。
03 效率提升:思維鏈壓縮與成本優(yōu)化
DeepSeek V3.1在效率優(yōu)化方面取得了重大突破。通過思維鏈壓縮訓練,V3.1在思考模式下的輸出令牌數(shù)減少了20%-50%,同時保持了與前代R1-0528相當?shù)男阅鼙憩F(xiàn)。這種效率提升直接轉化為顯著的成本優(yōu)勢。完成一次完整的編程任務測試,V3.1的成本僅需約1.01美元,相比Claude Opus的約68美元,便宜了68倍。以下是DeepSeek V3.1與競爭對手的成本效益對比:
表:DeepSeek V3.1與主要競爭對手的成本效益比較
04 Agent能力:工具使用與智能體任務的飛躍
DeepSeek V3.1被其開發(fā)者稱為邁向“Agent時代”的第一步,這主要體現(xiàn)在其增強的工具使用和智能體任務能力上。
通過后訓練優(yōu)化,V3.1在編程智能體任務中表現(xiàn)突出。在代碼修復(SWE)和命令行終端環(huán)境下的復雜任務(Terminal-Bench)測試中,V3.1相比之前的DeepSeek系列模型有明顯提高。搜索智能體能力方面,V3.1同樣取得了重大進展。
在需要多步推理的復雜搜索測試(browsecomp)中,V3.1取得了30.0%的得分,比R1-0528的8.9%提高了237%。在多學科專家級難題測試(HLE)中,V3.1在使用Python和搜索工具的情況下達到了29.8%的準確率,比前代提高了20%。
05 國產芯片優(yōu)化:推動中國AI生態(tài)發(fā)展
DeepSeek V3.1的一個重要意義是其對國產芯片的專門優(yōu)化。模型支持UE8M0 FP8精度格式,這是為“即將發(fā)布的下一代國產芯片”量身定制的。這種優(yōu)化使得V3.1能夠在國產芯片上高效運行,降低了對國外硬件的依賴。
據(jù)報道,DeepSeek R2(V3.1的前身)已經使用華為昇騰910B芯片替代了NVIDIA H100 GPU。這一轉換使得輸出成本從每百萬令牌2.19美元降低到0.27美元,降幅接近90%。DeepSeek V3.1的成功訓練表明,中國AI產業(yè)能夠通過架構創(chuàng)新突破先進制程的限制。即使在受限的H800芯片上,DeepSeek仍然訓練出了高性能模型,證明了技術路徑可以多元化發(fā)展。
06 開源策略與API升級:開發(fā)者生態(tài)建設
DeepSeek繼續(xù)堅持其開源策略,V3.1的基座模型已經在Hugging Face和ModelScope平臺開源。這次的基座模型在V3基礎上額外訓練了8400億令牌的數(shù)據(jù)。API服務也進行了重要升級。現(xiàn)在支持128K上下文窗口和嚴格的函數(shù)調用(Strict Mode Function Calling),確保輸出嚴格符合Schema定義。
此外,DeepSeek V3.1還增加對Anthropic API格式的支持,使開發(fā)者能夠輕松將V3.1的能力接入Claude Code等框架。從2025年9月6日起,DeepSeek將執(zhí)行新的API定價策略。輸入價格調整為0.5元/百萬令牌(緩存命中)和4元/百萬令牌(緩存未命中),輸出價格為12元/百萬令牌。同時,夜間時段優(yōu)惠將被取消。
07 應用場景:從代碼生成到復雜問題解決
DeepSeek V3.1在多個應用場景中展現(xiàn)出色能力。
在代碼生成與軟件工程方面,V3.1表現(xiàn)尤為突出。在LiveCodeBench測試中,V3.1達到了74.8%的準確率,在Codeforces編程競賽中獲得了2091的評分,在Aider-Polyglot測試中取得了76.3%的得分,均領先于前代模型。在前端開發(fā)領域,V3.1也展示了顯著進步。在天氣卡片案例測試中,V3.1生成的動畫效果美觀,超出預期。
在流程圖與復雜案例測試中,V3.1能夠使用Mermaid流程圖展示用戶、Agent、LLM和MCP Server之間的交互,雖然細節(jié)有所欠缺,但基礎作品直出且具有不錯的美觀度。對于復雜推理任務,V3.1的思考模式表現(xiàn)出了優(yōu)異能力。
在需要多步推理的數(shù)學問題和高難度科學問題上,V3.1能夠提供準確的解決方案,使其成為研究和教育領域的有力工具。
DeepSeek V3.1的發(fā)布不僅僅是一次模型升級,更是AI發(fā)展方向的一次重要轉向。它標志著人工智能正在從單純的對話和內容生成,向能夠真正理解復雜需求、使用工具、解決實際問題的Agent時代邁進。
隨著V3.1對國產芯片的深度優(yōu)化以及其在多項任務上的卓越表現(xiàn),中國在全球AI競爭格局中的地位正在提升。雖然在美國芯片管制的背景下,中國AI發(fā)展面臨挑戰(zhàn),但DeepSeek V3.1的成功表明,通過架構創(chuàng)新和生態(tài)協(xié)同,同樣能夠取得突破性進展。
一句話總結
模型參數(shù)更大更靈活,性價比更高,更好地支持AI,Agent還能使用國產芯片 —— 對于AI應用來說將會是一個性價比更好的選擇,也有利于AI的進一步普及。
本文由人人都是產品經理作者【產品海豚灣】,微信公眾號:【產品海豚灣】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!