實測完主流大模型編程與Agent能力,我發(fā)現(xiàn)了。。。
今天,蒼何將通過一系列實測案例,帶你深入了解這些主流大模型在實際應(yīng)用中的表現(xiàn)。從可視化歐拉恒等式到設(shè)計帶有動畫效果的天氣卡片,從創(chuàng)建《木蘭辭》的動態(tài)頁面到電商產(chǎn)品詳情頁管理工具的開發(fā),這些測試將全方位展示各模型的能力。你將看到它們在代碼質(zhì)量、UI設(shè)計、多模態(tài)分析等方面的優(yōu)劣。
不瞞你說,這是一篇拖了一個多月的文章。
那個時候,大模型紛紛狂發(fā),GPT5、Claude4、Gemini2.5 Pro、Kimi K2,doubao 1.6 、Qwen 3、GLM 4.5 等陸續(xù)出來。
除此之外,vibe coding 工具也是一路狂飆,先不說 Cursor、Trae 吧,后來追上的 Claude Code 火了后,AI CLI 工具也瘋狂連發(fā)。
騰訊、字節(jié)、阿里等大廠瘋狂更新自家大模型和 AI ?編程工具。
但對很多人來說,真的有點(diǎn)學(xué)不過來了,這其中就包括我。
特別是涉及 code 能力、 Agent 能力、多模態(tài)能力,到底哪個大模型好,目前我們的差距在哪兒?優(yōu)勢在哪兒?
于是大概一個多月前,我就整理測了主流模型的能力表現(xiàn)。(截圖部分)
從這些測評 case,對大模型的拷打,多少能得到一些我們想要的答案。
但一直沒有好好發(fā)出來,是因為這一個多月來,太多要詳測的東西了。
今天終于有時間能發(fā)出來了,但由于文章篇幅限制問題,這一篇就先對比下 doubao 1.6、 Kimi K2、Claude Sonnet 4、Gemini 2.5 Pro、Qwen 3。
保命申明:部分 case 及靈感靈感來源網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系作者。其中豆包大模型 1.6 是基于火山方舟測試。
可視化歐拉恒等式
首先,我給各模型出了個不算太難但很能體現(xiàn)功底的題目:可視化歐拉恒等式創(chuàng)建一個交互式工具來可視化歐拉恒等式
這是 Kimi K2 效果:
這是豆包 APP 效果:
Gemini 2.5 Pro 效果如下:
Claude Sonnet 4 出來的效果:
試了 Qwen 3-Coder,是這個效果:
結(jié)論:整體效果大差不差,豆包大模型1.6等國內(nèi)模型和 Claude 展現(xiàn)出的效果接近,但前端美觀度上,Claude 在這個 case 里面保持了些許領(lǐng)先吧。
帶有動畫效果的天氣卡片
再來看個不算太難但很能體現(xiàn)設(shè)計功底的題目:帶有動畫效果的天氣卡片
你是 Apple Inc 的 UI 設(shè)計師,以 iOS?18?的設(shè)計風(fēng)格做一個帶有動畫效果的天氣卡片,要求是使用 HTML、CSS 和基礎(chǔ) JavaScript,使用橫板天氣頁面(擁有?4?個天氣卡片 (晴天,大風(fēng),暴雨,暴雪))。應(yīng)足夠美觀,實現(xiàn)一定的交互效果。
先看下豆包大模型1.6的效果:
然后是 Kimi K2:
看下 Gemini 2.5 pro 的效果:
這是 Claude 4 效果:
最后看下 Qwen 3 出來的效果:
結(jié)論:這一輪中 Kimi K2 稍微有點(diǎn)不及預(yù)期,但 Qwen 3 和 doubao 1.6 表現(xiàn)不錯,甚至比 Gemini 2.5 pro 稍微好些。
為了方便對比,我還特意做了豆包大模型 1.6 和 Gemini 2.5 pro 同框:
Gemini2.5 Pro 生成的結(jié)果功能上沒問題,但整體設(shè)計偏保守,動畫效果簡單,交互反饋不夠細(xì)膩。晴天卡片上的太陽就像個靜止的emoji,大風(fēng)卡片的云朵動效卡頓得像PPT翻頁。
豆包大模型1.6完美復(fù)刻了 iOS 18 的毛玻璃效果,連高斯模糊參數(shù)都調(diào)得和官網(wǎng)一致,看來豆包大模型1.6 在 UI 設(shè)計細(xì)節(jié)處理上確實下了一番功夫!
設(shè)計 breakout 游戲
再來看個經(jīng)典的游戲場景:設(shè)計 breakout 游戲
創(chuàng)建一個簡單的breakout游戲作為單個html頁面。
先看下豆包大模型1.6 效果:
接下來是 Kimi K2 效果:
Gemini2.5 Pro 效果如下:
Claude 效果如下:
Qwen3 出來的效果:
結(jié)論:這一輪國產(chǎn)模型勝過 Claude 和 Gemini 2.5 Pro,無論是效果還是真實可玩性上,相對來說,豆包大模型 1.6 和 Qwen 3 效果最好。
《木蘭辭》的動態(tài)頁面
接下來是一個有意思的 case:《木蘭辭》的動態(tài)頁面
幫我創(chuàng)建一個豎排展示《木蘭辭》的動態(tài)頁面,頁面整體采用深色背景,文字為白色或淺色,字體簡潔,適合長時間閱讀。具體要求如下:
1、清除掉原詩文的格式,只保留標(biāo)點(diǎn)。所有文字豎向排列,也即使垂直方向從上到下排列。2、整體為白色文字,背景色為純黑色,字體為宋體。頁面的 Padding 為10px。根據(jù)展示效果自動調(diào)整好大小。
3、風(fēng)格簡約高級。
4、屏幕最右側(cè)第一列垂直展示詩文標(biāo)題,標(biāo)題字號比正文大?5?px。
5、從右側(cè)第二列開始,依次繼續(xù)垂直自上而下逐字展示詩詞內(nèi)容。每一豎列排滿后,朝該列左側(cè)方向換下一列就像展示。以此類推。
6、每一列文字只有當(dāng)距離底部 Padding 為?20px 時,才需要起新的一列。但注意,不要讓標(biāo)點(diǎn)打頭。
7、每列文字左側(cè)都有豎向的細(xì)白色分割線。
豆包 APP 效果如下:
Kimi K2 效果如下:
Gemini2.5 Pro 效果:
Claude 4 效果:
Qwen 3 效果:
結(jié)論:這個 case,表現(xiàn)最好的當(dāng)屬豆包 APP,無論是文字效果還是底部 Padding 都不錯,Kimi K2 和 Claude 4 勉強(qiáng)也過得去,但 Qwen 3 和 Gemini 2.5 Pro 就有點(diǎn)抽象了,Gemini 2.5 Pro 直接出不來效果,Qwen 3 沒遵循我的要求。
六邊形彈力小球測試
六邊形彈力小球測試屬于測試模型能力的經(jīng)典 Case,我們看看各家模型能力如何。提示詞:
編寫一個 Python 程序,使用 Pymunk 和 Pygame 模擬以下場景:一個正六邊形圍繞其中心點(diǎn)以恒定角速度緩慢旋轉(zhuǎn),六邊形的六條邊作為剛體墻壁,內(nèi)部有一個小球。小球受重力、摩擦力和彈力的影響,在六邊形內(nèi)部彈跳。中心點(diǎn)位置保持不變,模擬小球的彈跳運(yùn)動軌跡,并顯示動畫效果。確保物理模擬真實,包含碰撞檢測和適當(dāng)?shù)奈锢韰?shù)(如摩擦系數(shù)、彈性系數(shù))。代碼需包含詳細(xì)注釋,說明每個部分的功能。
這個測試相當(dāng)有難度,需要精確的物理計算和碰撞檢測。
來看看 Kimi K2 出來的:
Claude4 的效果如下:
另外我同時對比了下用豆包大模型 1.6 和 Minimax agent 做出來的效果:
結(jié)論:部分模型無法直出效果,Claude4、豆包大模型 1.6碰撞檢測精準(zhǔn),沒有出現(xiàn)穿透邊界的情況,且六邊形旋轉(zhuǎn)與小球運(yùn)動完全同步。
電商產(chǎn)品詳情頁管理工具
下面來看個實際編程 case,做電商產(chǎn)品詳情頁管理工具,提示詞如下:
從零開始實現(xiàn)一個web電商產(chǎn)品詳情頁管理工具,包括圖片預(yù)覽、SKU選擇、動態(tài)定價和性能優(yōu)化
1、強(qiáng)調(diào)超大字體或數(shù)字突出核心要點(diǎn),畫面中有超大視覺元素強(qiáng)調(diào)重點(diǎn),與小元素的比例形成反差
2、中英文混用,中文大字體粗體,英文小字作為點(diǎn)綴
3、簡潔的勾線圖形化作為數(shù)據(jù)可視化或者配圖元素
4、運(yùn)用高亮色自身透明度漸變制造科技感,但是不同高亮色不要互相漸變
5、模仿 apple 官網(wǎng)的動效,向下滾動鼠標(biāo)配合動效
6、數(shù)據(jù)可以引用在線的圖表組件,樣式需要跟主題一致
7、使用 Framer Motion (通過CDN引入)
8、使用HTML5、TailwindCSS?3.0+(通過CDN引入)和必要的JavaScript
9、使用專業(yè)圖標(biāo)庫如Font Awesome或Material Icons(通過CDN引入)
先看下豆包 APP 效果:
Kimi K2 效果:
Gemini 2.5 pro 效果:
Claude 4 效果:
結(jié)論:這個 case 明顯可以看到豆包大模型 1.6 的表現(xiàn)有點(diǎn)突出,Claude 4 也還不錯,我還把豆包大模型 1.6 和 Kimi 做下下對比放在一起,效果感受一下:
迷宮可視化工具
下面來 PK 一下迷宮生成與路徑查找,這個 case 可以說能很好的考察模型的編程和 agent 能力。提示詞如下:
?創(chuàng)建一個迷宮生成器和尋路可視化工具。隨機(jī)生成一個迷宮,?并逐步可視化 A* 算法的求解過程。使用畫布和動畫,使其具有視覺吸引力。
同樣,先來看看豆包大模型 1.6 生成的效果:
再來看看 Kimi K2:
Gemini 2.5 pro 效果:
Claude 4 效果:
Qwen 3 效果:
結(jié)論:整體都完成了任務(wù),但從迷宮設(shè)計落錯上,豆包大模型 1.6 和 Kimi K2 效果表現(xiàn)更好,動畫效果更流暢,甚至在
– 墻壁碰撞時有輕微的震動反饋。
我也單獨(dú)把 Qwen 3 和豆包大模型 1.6 拿出來對比了下,就這個 case 來說,豆包大模型 1.6 效果更好一些。
CSV文件分析并做圖表
提取 CSV 文件信息分析后做圖表能力,我分別測了各大模型,目前感受下來,差距不大。
分析一份CSV文件中的銷售數(shù)據(jù),計算總收入并生成圖表。
這是豆包大模型 1.6 的結(jié)果:
這是 Kimi K2 效果:
Gemini 2.5 pro:
其余幾個模型基本效果類似,就不一一截圖了。
圖片識別-邏輯計算
這個 case 主要考察大模型的多模態(tài)理解以及邏輯計算能力,提示詞如下:
從圖片中獲取商品的價格,再分別計算后相加
這個是素材圖片:
測試圖片中包含:
- 主圖:商品特寫,每個商品都有價格
- 圖片中商品的價格分別為:進(jìn)口香蕉600g/份¥6.98、靈芝盆栽1束/份¥19.9、千禧小西紅柿500g/盒¥6.98、洪湖小龍蝦¥8.9。將這些價格相加可得:6.98+19.9+6.98+8.9=42.76元。
這里識別效果最好的是豆包大模型 1.6,它額外指出了:額外指出:”注意圖片右下角有領(lǐng)劵活動,建議用戶湊單更劃算”
視頻識別-動作評分
給一個貓咪跳水運(yùn)動的視頻,給到不同模型,發(fā)現(xiàn)在火山上體驗的豆包大模型 1.6 支持視頻解析。
可以看到回復(fù)中能理解視頻并做分析。
而 Kimi、Claude 4 暫時還不支持該能力:
目前測下來,豆包大模型 1.6 和 Gemini 2.5 pro 在這塊上不分伯仲。
特別值得一提的是,豆包大模型 1.6 原生就支持定位能力,效果非常給力。
說到多模態(tài)這塊,大家還記得豆包Seedream 4.0,效果相當(dāng)炸裂。
總結(jié)
由于篇幅有限,只能提供比較明顯的對比;實則我測試過好多橫向?qū)Ρ取?/p>
可以看到,就編碼和 Agent 能力,真的不是 Claude 一家獨(dú)大,我們測試了非常多的 case,表明,像豆包大模型1.6、Kimi、Qwen 3 表現(xiàn)都還不錯,有時候甚至超過了 Claude 4.
而對于多模態(tài)能力,Claude 4 更不值一提,豆包大模型 1.6 的多模態(tài)能力測下來效果是最好的。
所以,Claude,是什么讓你如此猖狂?視我們?yōu)閿硨Γ恢狈饨?/p>
經(jīng)過這一輪細(xì)節(jié)控大比拼,我發(fā)現(xiàn)一個有趣的現(xiàn)象:雖然市面上有很多優(yōu)秀的 AI 大模型,但在某些特定領(lǐng)域,豆包大模型 1.6 的表現(xiàn)確實令人印象深刻:
● UI設(shè)計能力:豆包大模型 1.6 對視覺細(xì)節(jié)的把握堪稱一絕,連陰影參數(shù)都調(diào)得恰到好處
● 代碼質(zhì)量:結(jié)構(gòu)清晰、注釋詳盡,物理參數(shù)設(shè)置合理
● 工具集成:原生支持MCP協(xié)議,與外部工具協(xié)同工作更加順暢
● 多模態(tài)分析:不僅能識別內(nèi)容,還能提供專業(yè)級深度分析
當(dāng)然,其他模型也各有所長:Kimi K2在文本處理上更勝一籌,Claude Sonnet 4.5的邏輯推理能力突出,Gemini2.5 Pro的創(chuàng)意寫作能力非凡,Minimax在特定領(lǐng)域知識豐富,Qwen3-Coder的代碼生成效率驚人。
幾個月后,我相信,模型能力又將會有天翻地覆變化。
讓我們好好見證下這個時代吧。
本文由人人都是產(chǎn)品經(jīng)理作者【汪仔6818】,微信公眾號:【蒼何】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!