不是。。。DeepSeek你真會????那我剛充Claude的20美金算什么??

0 評論 7856 瀏覽 6 收藏 14 分鐘

DeepSeek R1模型悄然升級,代碼生成和邏輯推理能力大幅提升,直逼Claude 3.7及OpenAI o3高版本,前端審美與Claude 4相當(dāng)。此次升級雖低調(diào),卻在性能上帶來顯著突破。

熟悉餅干哥哥公眾號風(fēng)格的同學(xué)都知道,我一般不實(shí)時追熱點(diǎn)的:太著急下的判斷很多時候是錯的,誤導(dǎo)讀者。

今早起來,看到AI自媒體們又集體高潮了:DeepSeek再一次改變歷史?

無語了??

但我實(shí)測的時候發(fā)現(xiàn)被打臉了

不是。。。DeepSeek你真會?。??那我剛充的20美金算什么??

太長不看版,直接劃重點(diǎn):

  • DeepSeek R1模型在5月28日進(jìn)行了“小版本試升級”(0528版),官方異常低調(diào),未公布具體更新日志!
  • API接口和使用方式不變,開發(fā)者零成本升級!
  • 實(shí)測炸裂:代碼生成能力大幅提升,部分測試直逼乃至超越Claude 3.7,媲美OpenAI o3高版本!前端審美也和Claude 4打得有來有回!
  • 邏輯推理、長文本處理再進(jìn)化! 語義理解更精準(zhǔn),復(fù)雜邏輯鏈更穩(wěn)定,超長上下文回溯更準(zhǔn),甚至能像o3一樣糾正思維鏈(CoT)!
  • 為什么網(wǎng)上測評說DeepSeek很強(qiáng),但自己上手后效果就很差呢?附:DeepSeek的正確打開方式

實(shí)測下來,思考鏈真的好長好長,一句話完成復(fù)雜需求的新AI時代到了?。?/p>

昨天!AI圈又被DeepSeek這匹黑馬給攪動了!DeepSeek官方在交流群中低調(diào)宣布,R1模型已完成小版本試升級!用戶可以通過官網(wǎng)、App或小程序(需打開「深度思考」功能)進(jìn)行測試。

但詭異的是,官方這次竟然一個字兒都沒提更新了啥!Docs里的「Change Log」也還停留在3月份。這葫蘆里到底賣的什么藥?是小打小鬧,還是憋了個大招?

開源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

盡管官方三緘其口,但實(shí)測下來,這次升級,在語義理解、邏輯推理、長文本處理、尤其是編程能力上都有顯著提升!雖然官方還沒放Benchmark,但用戶口碑已經(jīng)炸了!

代碼能力殺瘋了!直逼OpenAI o3?

要說這次升級最讓人“人已麻”的,絕對是代碼能力!有網(wǎng)友在著名的代碼測試平臺Live CodeBench上測試,新版R1的性能竟然可以媲美OpenAI最新的o3模型高版本!這消息一出,整個圈子都沸騰了!

知名AI評論人Haider直接高呼:“大師兄DeepSeek又回來了~” 他用一個單詞評分系統(tǒng)構(gòu)建的編程挑戰(zhàn)測試新R1,模型不僅給出了整潔代碼,還附帶了可運(yùn)行的測試用olc,第一次運(yùn)行就完美通過!Haider表示:“此前只有o3模型能做到這一點(diǎn),但現(xiàn)在沒有其他模型能做到了。”

來實(shí)測看看是怎么個事?

??先說說:DeepSeek的正確打開方式

在直播的時候,經(jīng)常會遇到有同學(xué)反饋說:為什么網(wǎng)上測評說DeepSeek很強(qiáng),但自己上手后效果就很差呢?

交流了才知道,原來大家用DeepSeek的方式錯了:還停留在“上一代”的AI用法上。

首先,OpenAI于2022年12月推出ChatGPT后,掀起了AI熱。但由于AI理解能力的不足,就需要提示詞。

接下來就是一大段時間的「提示詞工程」的科普與發(fā)展,我們就習(xí)慣了用AI的時候給它一大段提示詞:角色、人物、限制、輸出格式、示例等等。

但到了今年春節(jié)前夕DeepSeek把「深度思考」的能力帶出來后,直接引爆了AI的新一輪革命,這也是它之所以這么矚目的原因。

而深度思考是DeepSeek的優(yōu)勢:讓你只需要簡單的幾句話,就能實(shí)現(xiàn)復(fù)雜的需求識別、意圖理解與效果實(shí)現(xiàn)。

也就是說,用DeepSeek就只能用少量提示詞,太多的話反而會限制它的發(fā)揮。

但用Claude的國外大模型,才需要大量提示詞,因?yàn)樗芎芎玫淖裱?guī)則(反過來說就是DS沒法很好遵循規(guī)則)

我們分別用這兩種方式來測一下效果。需求是開發(fā)一個股票行情的監(jiān)控網(wǎng)站。

首先是「結(jié)構(gòu)化提示詞」:

請設(shè)計一個AI股票監(jiān)控的可交互數(shù)據(jù)可視化平臺的前端頁面,該平臺需在大屏幕上展示實(shí)時股票行情、AI預(yù)測分析和交易輔助決策功能。要求:

1.? 頁面布局與設(shè)計:
*? ?采用16:9的寬屏設(shè)計,適合在4K分辨率大屏上展示
*? ?設(shè)計暗色背景的界面,確保長時間監(jiān)控時不刺眼
*? ?所有組件采用模塊化設(shè)計,具有統(tǒng)一的視覺風(fēng)格
*? ?包含頁眉(平臺名稱/Logo、時間、市場狀態(tài))、主內(nèi)容區(qū)、數(shù)據(jù)匯總/AI洞察欄和操作區(qū)

2.? 核心數(shù)據(jù)可視化模塊:
*? ?股票市場熱力圖,覆蓋主要板塊/行業(yè)或個股,使用漸變色標(biāo)識漲跌幅或成交活躍度
*? ?關(guān)鍵股票實(shí)時數(shù)據(jù)監(jiān)控,包含股價、成交量、買賣盤深度、技術(shù)指標(biāo)(如MA, MACD, RSI)
*? ?市場重大事件/新聞資訊流,標(biāo)記財報發(fā)布、經(jīng)濟(jì)數(shù)據(jù)公布、分析師評級變動、突發(fā)新聞等影響市場的事件
*? ?投資組合表現(xiàn)可視化,展示資產(chǎn)配置、個股盈虧、整體收益率、風(fēng)險指標(biāo)(如Beta, VaR)
*? ?自選股/關(guān)注列表儀表盤,展示所選股票的實(shí)時價格變動、關(guān)鍵財務(wù)指標(biāo)、AI評級/預(yù)警
*? ?股價/成交量趨勢圖(如分時圖、K線圖),包含實(shí)時數(shù)據(jù)、歷史對比及常用技術(shù)指標(biāo)疊加

3.? 數(shù)據(jù)分析與AI預(yù)測模塊:
*? ?AI驅(qū)動的股價走勢預(yù)測模型可視化,展示未來短期(如1小時、1日、1周)內(nèi)關(guān)鍵股票或指數(shù)的潛在波動區(qū)域和概率
*? ?多因素關(guān)聯(lián)分析圖表,展示宏觀經(jīng)濟(jì)指標(biāo)(如利率、通脹)、市場情緒、新聞事件與股價變動的關(guān)系
*? ?AI驅(qū)動的股價異動/市場風(fēng)險預(yù)警面板,采用不同顏色標(biāo)識預(yù)警緊急程度(如價格急漲急跌、成交量異動、突發(fā)負(fù)面新聞)
*? ?關(guān)鍵績效指標(biāo)(KPI)對比/變化圖表,展示投資組合收益率、夏普比率、與基準(zhǔn)對比的超額收益等表現(xiàn)

4.? 技術(shù)要求:
*? ?使用HTML5、CSS3和純JavaScript實(shí)現(xiàn)(不使用任何外部庫)
*? ?手寫所有圖表和數(shù)據(jù)可視化組件,包括K線圖、成交量柱狀圖、熱力圖、折線圖、餅圖等
*? ?實(shí)現(xiàn)數(shù)據(jù)的定時刷新機(jī)制,支持1秒-1分鐘不等的可配置刷新頻率(根據(jù)數(shù)據(jù)源特性)
*? ?添加交互功能,如點(diǎn)擊圖表查看詳細(xì)數(shù)據(jù)、時間周期選擇、股票代碼搜索、技術(shù)指標(biāo)參數(shù)調(diào)整等
*? ?所有代碼和樣式需內(nèi)聯(lián)在HTML文件中

5.? 示例數(shù)據(jù):
*? ?為每個可視化模塊創(chuàng)建合理的模擬數(shù)據(jù)集
*? ?數(shù)據(jù)應(yīng)反映真實(shí)股票市場特征,包含牛市、熊市、震蕩市以及不同板塊/個股的波動特點(diǎn)
*? ?添加若干異常數(shù)據(jù)點(diǎn)(如股價閃崩、業(yè)績爆雷、重大利好),用于測試AI預(yù)警和分析功能
請?zhí)峁┩暾腍TML代碼實(shí)現(xiàn),確保視覺效果專業(yè)、數(shù)據(jù)展示清晰、整體布局合理,適合在大屏環(huán)境下長時間監(jiān)控使用。

得到兩個效果網(wǎng)站,你們猜哪個是DeepSeek,哪個是Claude4:

揭曉答案:上面的是DeepSeek,下面的是Claude4

有一說一,這波DeepSeek贏了,審美上更好看、布局上能確??刂圃谝粋€屏幕內(nèi)看完。

由于這個看板太復(fù)雜了,真實(shí)情況是,DeepSeek和Claude我都各改了一遍才有這個效果,但也只是小改動:

但!DeepSeek只需要改一遍就有這樣的效果,贏麻了。。。

接著我們看「一句話提示詞」

繼續(xù)猜,哪個是DeepSeek,哪個是Claude4:

揭曉答案:上面的是Claude4,下面的是DeepSeek

一句話提示詞出來的網(wǎng)站內(nèi)容確實(shí)是會更簡單一些,但DeepSeek給的顏值視覺效果上更勝一籌。

Claude4屬于中規(guī)中矩了。

看官老爺們,你們更喜歡哪個呢?

“悄悄升級”的背后:安全補(bǔ)丁還是戰(zhàn)略調(diào)整?

這次DeepSeek“小版本試升級”選擇在英偉達(dá)發(fā)布財報前幾小時,而且如此低調(diào),背后深意引人遐想。 有分析認(rèn)為,可能是針對今年1月《WIRED》報道的R1防護(hù)措施被繞過問題,進(jìn)行安全補(bǔ)丁的增量迭代。 另一種可能是產(chǎn)品路線的統(tǒng)一和優(yōu)化,為后續(xù)可能發(fā)布的R2鋪路,減少雙線維護(hù)成本。

畢竟,DeepSeek V3才在3月強(qiáng)化了推理,現(xiàn)在將類似優(yōu)化下放到R1也合情合理。 甚至有猜測,這是DeepSeek一貫的“降價+先灰度”打法,意在搶占618電商大促前的流量,并通過頻繁微更新在與字節(jié)Seed-Thinking v1.5、Claude 4等競品的角逐中保持熱度。

新R1的思考時間變長了,Hyperbolic Labs的CEO則表示新R1“仍然是唯一能回答9.9和9.11哪個最大的模型”。這似乎暗示了模型在深度推理和思維鏈(CoT)糾正能力上的增強(qiáng),能夠像Google模型一樣進(jìn)行深度推理,并像Claude一樣創(chuàng)造性地構(gòu)建世界觀。

無論如何,DeepSeek R1這次“小版本試升級”所展現(xiàn)出的潛力,已經(jīng)足以讓整個AI行業(yè)為之側(cè)目。

國產(chǎn)AI,這次可能真的要行了!

今天的內(nèi)容就是給后面這兩種方式打底的:這個工作流可以打包成工具供給它們調(diào)用。

本文由人人都是產(chǎn)品經(jīng)理作者【餅干哥哥】,微信公眾號:【餅干哥哥AGI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自DeepSeek官網(wǎng)截圖

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!