深度評測智譜 GLM-4.5,到底是什么水平?
實測一圈下來,結論是——如果你最近要寫代碼、搭 Agent、做原型,GLM-4.5 可能是 2025 年最值得先上手的國產(chǎn)大模型,沒有之一。
這段時間國產(chǎn) AI 模型非常熱鬧,各家都瞄著 Coding 和 Agent 場景,開源自己的最新模型。
是個好事,大幅拉近和國際模型的 Coding 差距。就是對用戶來說,有些亂花漸欲迷人眼,不知該用啥。
周末提前測到了智譜新出的 GLM-4.5,體驗后,覺得非常有必要單開一章安利。
文內(nèi)所有配圖,均為 GLM-4.5 通過前端代碼生成,為自己配圖
我精心設計了一些 Benchmark,對 GLM 進行了詳細測試。
比如,這是用 GLM-4.5 一句話生成的在線文檔平臺,能創(chuàng)建、編輯,分享文檔,甚至自動接入 AI 功能,提供 AI 摘要、AI 內(nèi)容續(xù)寫的能力:
也先分享這幾個關鍵進步:
1.?在國內(nèi)模型中率先支持推理的 Agentic 模型,需求指令理解更好了
2.?在較長上下文中,記憶保持還不錯
3.?前端代碼審美,持平或超過 Claude 4、Gemini Pro(而且后端構建也一點不弱)
4.?生成速度快,是真的快??炀褪钦嬷B,Coding 順暢了很多。我會愿意把 GLM-4.5 作為近期的主力 Coding 模型。
用一句話說:如果有 Coding、Agent 任務需求,值得上手自測,我覺得不會浪費時間。
尤其是 z.ai 還提供了一個非常好用的 Full-Stack 模式,能在網(wǎng)頁對話中,一句話直接構建帶前后端、AI 能力的多頁面應用。
先一圖流了解 GLM-4.5 參數(shù)、價格
智譜一共發(fā)了 3 款模型:
GLM-4.5,大杯,355B-A32B;GLM-4.5-Air,中杯,106B-A12B;GLM-4.5-Flash,完全免費。
把官方介紹制作為一圖流,方便查看:
有幾個點可以留意:
- 大杯參數(shù)僅有DeepSeekR1的1/2,KimiK2的1/3
- 單輪最大輸出9.8wtoken,生成速度非??欤咚侔婷棵脒_100tokens
- 全面開源,采用最寬松的MITLicense(任何人只要在軟件中保留原始版權聲明,即可隨意商用分發(fā))
特別的,關于價格:
- 旗艦版在最大輸入輸出下,結合官方的5折活動,也低至輸入2元/百萬tokens,輸出8元
- 以及GLM-4.5-Flash,中小開發(fā)者可以留意下,完全免費
也就是說,只要實測效果良好,GLM-4.5 綜合優(yōu)勢就將穩(wěn)居現(xiàn)階段的國產(chǎn) Agentic 模型前列。
?? 橫測 GLM-4.5 水準:基礎代碼生成
還是那句話:SOTA 并不直觀,還得體感實測,更能給自己試著切換主力模型的信心。
我直接把 GLM-4.5 和當紅 Kimi K2、Qwen3-coder,以及老員工 Gemini 2.5 Pro、Claude Sonnet 4 拿出來盡可能做一下對比。
考慮到橫測對象均為旗艦版,GLM 也默認旗艦版。每項測試的 Prompt 均會附在測試小節(jié)的末尾。
1)長上下文注意力與前端設計:一圖流生成對比
這是我最喜歡的快速實測,讓模型閱讀一篇長文,自行提煉關鍵內(nèi)容,并生成便于閱讀的一圖流網(wǎng)頁。
同時考驗模型的邏輯分析、長上下文記憶保持、幻覺問題,以及前端 Coding 的質量與設計審美。
測了一些 Case,舉兩個例子:
1.?先是總結我翻譯的 Manus Context 工程經(jīng)驗,5000 字左右:GLM 4.5 表現(xiàn)良好,內(nèi)容要點總結精準,有比較積極的配圖傾向
2.?然后試了下更長的萬字 2025 上半年AI 產(chǎn)品推薦的長文:GLM 4.5 在更長文的任務中,關鍵要點提煉、布局呈現(xiàn)優(yōu)秀,無幻覺
總結更多次反復測試的體感如下:
- 從內(nèi)容取舍與排版理解上來說:GLM-4.5、Gemini由于支持Thinking,相對于國產(chǎn)NoThinking模型更占優(yōu)勢。
- 看前端樣式:更多次測試中,GLM-4.5、Gemini2.5Pro給出的設計下限普遍更高(其他幾家也不差)。
- 說起均衡生成速度:GLM-4.5的速度應該是最快的一檔,這個給Coding帶來的體驗就很好。眾所周知,AICoding離不開多輪漸進與遞歸提示,生成太慢容易抓瞎和暴躁。速度大于or約等于Gemini2.5Pro、Qwen
所以這個任務里優(yōu)選推薦模型的話,體感排序:GLM-4.5 ≈ Gemini 2.5 Pro > Kimi K2 ≈ Qwen3-Coder > Claude Sonnet 4
BTW:如果有興趣測試,或有做圖需求,這是同款 Prompt:
## 以下是我的文章:
[粘貼文章內(nèi)容]
## 任務
我是[個人身份、作圖用途]。請閱讀我的文章中的要點,幫我用類似蘋果發(fā)布會PPT的Bento Grid風格的視覺設計生成一個中文動態(tài)網(wǎng)頁展示,具體要求為:
–?盡量在一頁展示全部信息,背景為白色、文字和按鈕顏色為純黑色,高亮色為#4D6BFE
–?強調超大字體或數(shù)字突出核心要點,畫面中有超大視覺元素強調重點,與小元素的比例形成反差
–?網(wǎng)頁需要以響應式兼容更大的顯示器寬度比如1920px及以上
–?中英文混用,中文大字體粗體,英文小字作為點綴
–?簡潔的勾線圖形化作為數(shù)據(jù)可視化或者配圖元素
–?運用高亮色自身透明度漸變制造科技感,但是不同高亮色不要互相漸變
–?數(shù)據(jù)可以引用在線的圖表組件,樣式需要跟主題一致
–?使用HTML5、TailwindCSS 3.0+(通過CDN引入)和必要的JavaScript
–?使用專業(yè)圖標庫如Font Awesome或Material Icons(通過CDN引入)
–?避免使用emoji作為主要圖標
–?不要省略內(nèi)容要點,禁止編造文內(nèi)未出現(xiàn)的數(shù)據(jù)
2)多項復雜指令遵循:一次性生成富交互工具
在 AI Coding 的實際任務里,大部分情況是給 AI 一大段話,里面包含復數(shù)個需求,考驗復雜指令遵循度。
挑戰(zhàn)一個復雜的前端富交互的編輯器開發(fā)任務。要求 AI 一次性生成一個可增刪、拖拽、改字體、顏色、大小的內(nèi)容編輯器。
并對 UI 樣式進行特定要求:“實用主義設計風格、中性灰配色”
該任務的復雜度,主要在一次性需要完成多項要求,實現(xiàn)復雜的 UI 交互、DOM操作、對應用狀態(tài)、以及 UI 樣式的精確控制。
對真人開發(fā)來說,從頭開發(fā)比較麻煩,一般會選擇找開源組件改一下,而不會費勁造新輪子。(下面是我資深前端開發(fā)朋友的看法)
以下是 5 個 AI 的執(zhí)行結果:
- 從任務要求完成度來看:ClaudeSonnet4實現(xiàn)了全部要求。GLM-4.5只有1項未完成要求,整體表現(xiàn)靠前。
- 樣式遵循方面:各家對于輕量設計要求,基本都復原的不錯,可cover常見coding任務。
- 任務完成速度:最快還是GLM-4.5,比較慢的是KimiK2(但這個很難說嚴謹,因為官方服務負載也會有影響)
體感排序:Claude Sonnet 4 > GLM-4.5 > Kimi K2 > Qwen3-Coder = Gemini 2.5 Pro
(Kimi 因為當前生成速度,不得不降點分)
測試 Prompt(由于要求比較復雜多樣,每次偏差會有些偏差,上文舉例取均值表現(xiàn)):
請為我創(chuàng)建一個簡單的拖拽式網(wǎng)頁內(nèi)容構建器。
功能要求:
1)界面分區(qū):左側是一個“組件”面板,包含幾個可拖拽的元素,如“標題”、“段落”、“代碼塊”、“按鈕”。右側是一個“文章畫布”區(qū)域
2)拖拽與放置 (Drag & Drop):用戶可以從左側面板將組件拖拽到右側畫布中,并能放置在畫布的不同位置
3)動態(tài)渲染:組件被放置到畫布上后,應立即渲染成對應的 HTML 元素
4)內(nèi)容編輯:用戶可以直接點擊畫布上的文字類組件,并就地編輯 (in-place editing) 其文本內(nèi)容
5)屬性配置:當用戶選中畫布上的某個組件時,組件右上角顯示刪除按鈕,點擊后可刪除組件;畫布右側彈出一個簡單的屬性面板:可切換字體(襯線體和非襯線體 2種)、字體大小、對齊方式(左、右、居中)、顏色
6)組件排序:畫布上的組件支持拖拽更改排序7)數(shù)據(jù)結構:整個畫布的內(nèi)容需要能被序列化成一個 JSON 結構8)實時數(shù)據(jù)結構視圖:畫布下方常駐一個“數(shù)據(jù)結構”面板。以格式化后的代碼塊形式,實時顯示當前畫布所有內(nèi)容的完整 JSON 結構。當我對畫布進行任何操作(新增、刪除、修改內(nèi)容、拖拽排序)時,這個 JSON 視圖都必須立即、準確地同步更新
樣式要求:采用現(xiàn)代簡約的實用主義設計風格:使用中性灰色調配色方案,清晰的功能分區(qū)布局,充足的留白和8-20px間距,微妙的交互動效(懸停時輕微位移+陰影),圓角邊框(4-8px),功能性優(yōu)于裝飾性,注重信息層次和操作流暢性
嚴格按以上要求開發(fā),禁止添加其他功能,禁止忽略以上任何要求
?? Full-Stack 模式: 重頭戲,比模型更驚喜
測試完基礎性能后,非常非常非常值得一提的是:
除了通過 Chat 或 API 調用GLM-4.5 之外,z.ai 官網(wǎng)還提供了一個方便創(chuàng)作者的「Full-Stack」全棧模式。
你可將其理解為類似 Lovable、Bolt.new 的功能模式。
能夠在網(wǎng)頁對話中,一次性生成帶有前后端的全棧、多頁面應用,并發(fā)布到公網(wǎng)上。無需配置開發(fā)環(huán)境,也不用考慮部署問題。
測試如下:
1)創(chuàng)建一個可在線分享的在線文檔應用
比如文章開頭的在線文檔應用,使用的就是 Full-Stack 模式,在網(wǎng)頁對話中花了 10 分鐘一次性生成的應用 Demo。
任務記錄:https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
做一個在線文檔工具,可創(chuàng)建多份在線文檔,可一鍵分享文檔鏈接
在這個過程中,GLM-4.5 就如同“云端” Cursor、Windsurf 一樣, 自行規(guī)劃任務步驟、讀取應用空間內(nèi)的文件目錄與內(nèi)容。
并自行創(chuàng)建、編輯不同類型的代碼文件,實現(xiàn)完整應用構建。
如果有新迭代需求,或對某個功能/Bug 不滿意,也能直接自然對話,提出要求反復修改。
在這個模式下,AI 還會自行展開順暢的測試,自動改進迭代中可能的 Bug。
全過程無需人為提示 Debug,直出了 100% 可用的預期應用。
2)更高要求:讓 AI 自己,做 AI 功能
順應 AI 應用開發(fā)潮流,你還可以讓 GLM-4.5 在應用中,自行添加 AI API,按口頭需求編寫 Prompt,構建 AI 功能。
我也做了一系列測試,比如在文檔詳情頁添加 AI 自動摘要功能:
直出的效果大概是這樣的,能夠根據(jù)文章內(nèi)容與編輯情況,在發(fā)布后自動更新 AI 摘要:
測試下來,可用率 100%
再進一步難度,AI 段落補全:
即編輯文檔時,實時讀取上文內(nèi)容,提供 AI 段落補全建議
而下圖就是開發(fā)效果,也是在 2 輪自然要求內(nèi),完美達成了預期目標:
3)一鍵部署服務到公網(wǎng)
如果你喜歡自己的 Coding 結果,別忘了在 Full-Stack 模式右上角點一下「Publish」,就可以一鍵把服務部署到公網(wǎng),分享給更多用戶使用:
注意:
自從昨天 GLM-4.5 公開發(fā)布后,因為反響相當不錯,官方服務短期有波動,可能會出現(xiàn) AI API 報錯。遇到了可以刷新頁面后,發(fā)送“繼續(xù)”或點擊“重試”按鈕以推進任務。
Coding 成果在 Publish 后,可能會出現(xiàn)多頁面跳轉問題,官方正在修復中。(Preview 下沒問題)
當然,這些 Coding 效果當然不只是在 Full-Stack 模式下才能達到,更多是 GLM-4.5 基模的自身能力。
下面我也整理推薦了一些使用 GLM-4.5 的方法,任何人都能找到合適的選擇。
?? GLM-4.5 使用途徑推薦
如果你是非技術用戶:首推 z.ai
不知不覺中,z.ai 官方 Chat 平臺做得相當好了。
特別是上文詳細測試的 Full-stack 模式,這可能是現(xiàn)在國內(nèi)最適合新手體驗 Vibe Coding 的平臺。
享受同等 Claude 3.7 效果的 Coding 能力,但無需訪問外網(wǎng)、無需下載軟件、也不用配置服務器環(huán)境,完全免費,就能直接在網(wǎng)頁中,用對話生成帶前后端的輕量應用,并發(fā)布給所有小伙伴使用。
真的非常簡單,不需要一點代碼知識,建議由此入門嘗試 AI Coding 創(chuàng)造萬物 Demo 的感覺。
體驗地址:https://chat.z.ai/ ,別忘了左上方勾選模型為 GLM-4.5(也可以試試 GLM-4.5-Air,也不弱)
如果是開發(fā)者:GLM 版 Claude code
7 月份的國產(chǎn)模型,基本都借著兼容 Anthropic API 格式,無縫支持了 Claude Code。
GLM-4.5 也不例外。
特別值得一提:我實際用下來 GLM 版 Claude Code 十分穩(wěn)定,測到現(xiàn)在從未出現(xiàn)過 tool use 能力不足,導致的任務失敗 的情況。生產(chǎn)速度、任務成功率都相當不錯,推薦試用
體驗渠道:
1.?在開放平臺獲取智譜 API Key:https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
2.?正常安裝 Claude Code,然后運行:
export?ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
export?ANTHROPIC_AUTH_TOKEN=”your bigmodel API keys”
3.?輸入?Claude,啟動 GLM-Code 即可
另外,按照 Cursor、Windsurf、Trae 之前接入 Kimi K2 的速度, 在這三者上直接用上 glm-4.5 應該也不需要等上多久了。(Cline 感覺已經(jīng)比不上其他 AI Coding 產(chǎn)品,遂不再推薦)
?? 寫在最后
這篇文章就不上價值了,因為 GLM 進步本身已經(jīng)非常明顯。
在整個 7 月中,我們都能明顯感受到國產(chǎn)模型在 Coding 能力上,紛紛大幅拉近了和 Claude 4 之間的代差。
而在這兩天的 GLM-4.5 測試中,其實我最高頻的反應是:
- 等等,這還是GLM模型嗎?
- 這測下來,體感這是要現(xiàn)階段國產(chǎn)Coding模型Top1的節(jié)奏了?
- 到底是不是我測得還是不夠充分,只是剛好沒測到短板上?
行文至此,姑且大著膽子,下點個人測試結論:
- 體感判斷,在較為完整的中小項目中,GLM-4.5的能力,應該介于Claude3.7~4之間。
- 結合成本、速度、質量,GLM-4.5或許就是當下國產(chǎn)Coding模型的TOP1。
GLM-4.5 帶著最低的 API 價格、超快的模型速度,以及接近國際領先的 Coding 能力來了。(群友評論 ??)
可以預見,這個月國內(nèi)各家 Agentic 模型的進步,將大幅推進國內(nèi)依賴 AI 代碼生成場景的應用推廣進度。(無論是 AI Coding 的開發(fā)者接受度,還是相關 Agentic 產(chǎn)品應用)
還是那句話,只要你有 Coding、Agent 任務需求,值得上手自測,我覺得不會浪費時間。
也很期待你的實測反應與反饋。
本文由人人都是產(chǎn)品經(jīng)理作者【一澤Eze】,微信公眾號:【一澤Eze】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!