欧美成人看片一区二区,欧美日韩精品一区二区在线视频

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

保姆級教程：部署你的AI桌面助手

蒼何

2025-08-14

2 評論 1835 瀏覽 3 收藏

17 分鐘

凌晨 2 點 25 分，作者頂著熊貓眼，把智譜最新開源的 GLM-4.5V 大模型狠狠測了一遍,結(jié)論是——這 106B 參數(shù)的多模態(tài)“怪獸”不僅看得懂、算得快，還干得漂亮。保姆級教程、安裝包、API 白嫖指南全打包，5 分鐘讓你的電腦也長出 AI 眼睛和大腦。

我真是有點服，智譜又又又發(fā)布了新模型。

然后又給開源了。生產(chǎn)隊的驢都不帶這么卷的，我都懷疑智譜是不是嗑藥了。

7 月初開源 GLM-4.1V-Thinking，上周開源 GLM-4.5 和 GLM-4.5-Air，今天又開源了個 GLM-4.5 V。

晚上我聽了他們的直播發(fā)布會，幾個青澀的年輕人給介紹了這次發(fā)布的模型，時間很短，但卻不簡單。

我想第二天一定會有超級多的人來測，來玩，導(dǎo)致卡的無法使用?；谇败囍b，我還是打算今晚就給測完，痛快的體驗下它的能力，

現(xiàn)在是凌晨 2 點 25，終于測完了，還好，這次沒到五點，說明有進步，不然明天去上海怕是頂不住。

先說我測試下來的結(jié)論吧：GLM-4.5V 模型在多模態(tài)能力上表現(xiàn)很好，特別是在圖像/視頻理解、視覺定位上表現(xiàn)優(yōu)異。

現(xiàn)在同樣可以在 z.ai 體驗，但作為開發(fā)者，我更傾向于用 API 方式來驗證一些東西。

恰好他們開源了個桌面助手 vlm-helper，于是以下我所有的測評都基于該桌面助手。

我也會在文章后面給出該桌面助手的安裝包以及教程。

當(dāng)然，按照慣例，在放真實測評前，還是要放一放模型的跑分情況（雖然大家都看麻了）

可以看出在 42 個公開視覺多模態(tài)榜單中綜合效果達到同級別開源模型 SOTA 性能，涵蓋圖像、視頻、文檔理解及 GUI 任務(wù)等常見任務(wù)。

據(jù)官方介紹，GLM-4.5V 是基于智譜新一代旗艦文本基座模型 GLM-4.5-Air，延續(xù) GLM-4.1V-Thinking 技術(shù)路線，是一個擁有106B總參數(shù)，12B激活的視覺推理模型。

但口說無憑，真實體驗如何，還得實際測試。下面開整。

前端復(fù)刻

官方直播的視頻放出了復(fù)刻帶有交互的知乎網(wǎng)站。而且是通過錄屏的方式，看著挺厲害的。

但像這類公開的網(wǎng)站早就不知道被大模型訓(xùn)練了多少次了，參考意義不大。

于是，我靈機一動，何不復(fù)刻下我的開源項目 PmHub？這夠小眾吧。

于是，我也對著 PmHub 錄了個屏，也就是正常點擊頁面的功能。然后吧視頻丟給 vlm-helper，GLM-4.5 V 識別理解視頻內(nèi)容和操作，然后按照要求輸出代碼。

我的提示詞是這個：

請根據(jù)提供的多張網(wǎng)頁 UI 截圖，復(fù)刻出完整的交互式網(wǎng)頁，實現(xiàn)整個網(wǎng)頁的點擊、跳轉(zhuǎn)、交互等功能，請注意，每一張UI截圖都會對應(yīng)某個操作，請務(wù)必實現(xiàn)點擊、跳轉(zhuǎn)等交互操作，不要在thinking過程中思考html code怎么寫。最終返回一個完整html code。

我把前端效果做了個對比：

就單單從前端復(fù)刻能力上，沒啥意思，因為像 Weavefox 和same.new 這樣的工具做的細節(jié)會更到位。

但就從視頻理解整個頁面交互，這個就很吊了。這種感覺就好像 GLM-4.5 V 長了個眼鏡，又帶了個大腦，能看能理解，最后還能咔咔一頓編碼輸出。

圖像理解

下面是對多模態(tài)能力進行測試，但因為是 AI 桌面助手，我覺得在我們的測評中還是要以實際的工作學(xué)習(xí)場景展開。

所以以下 case，均模擬真實需求場景。

1、找出性價比最高的商品

最近在廈門抽了中了個手機，一直想著買個手機殼，但一搜，就蹦出一堆出來，容易讓人挑花了眼。

我其實就一個需求，選個性價比高的，就夠了。

于是我一截圖，輸入需求然后一回車，GLM-4.5 V 就給我推了個最具性價比的手機殼。

這里考察的是模型對圖片的理解能力，以及邏輯計算能力。GLM-4.5 V 表現(xiàn)不錯。

2、微信回復(fù)

我每天對著電腦要花費非常多的時間在微信上，有時候是工作，有時候是摸魚吹水。

就比如在吹水群，好朋友 kk 碰到奇葩的抱怨，作為鋼鐵直男，我一時不知道該怎么回復(fù)好。

于是我讓桌面助手捕捉我的屏幕中微信聊天記錄，它就給了我一個沒那么尷尬的回復(fù)。

講真，如果我要回，我估計是先破口大罵幫問候一下這奇葩，但 GLM-4.5 V 理解到了，此時，kk 或許更需要的是共情以及安慰。

雖然它還沒法直接幫我發(fā)消息，但這個情商是比大多數(shù)直男都高的（包括老蒼何）

3、朋友圈旅游照定位

朋友圈經(jīng)常會看到旅游照，有時候除了羨慕之外，也特別想知道這是去的哪兒耍呀，但又不好意思評論區(qū)或者私信直接問。

生怕暴露了自己窮屌絲的本質(zhì)，現(xiàn)在，我將朋友圈共享給 GLM-4.5 V，然后問它：這是哪兒。

GLM-4.5 V 憑借對圖片特征的提取，能給出是哪里。

不瞞你說，就 kk 發(fā)的這個圖，我一時還真沒想到會是在青島，雖然，我在青島呆了 4 年。。。

順帶，讓懂事的 GLM-4.5 V 給 kk 來個回復(fù)評論吧，真好，有了 AI，倒是省去了很多我不必要的思考。

4、驗證碼任務(wù)完成

雖然我是做軟件的，我能理解很多網(wǎng)站為了安全加固，會喜歡搞比較麻煩的驗證，來證明自己是個人。

就比如智譜他們自家的這個登錄驗證：

對于我這眼神不好的來說，每次還是挺費勁的。

現(xiàn)在好了，把這個丟給 GLM-4.5 V，它直接把答案給你標(biāo)注出來，這家伙，配合上 Agent，不是全自動化繞過驗證？

你感受一下：

真實道高一尺魔高一丈，估計智譜法務(wù)得好好加班研究研究應(yīng)對之策了，不然像 12306 這種最痛苦的驗證方式，不也能分分鐘破解？

你還別說，基于此，我還真就做了個小工具，讓你繞過所有的強制性驗證。

視頻理解

除了圖片理解，我覺得更難的是視頻的理解能力，而最為重要的也是視頻理解的能力。

因為我們的物理世界是三維的，而非二維的，對視頻的理解，是通過 AGI 的重要手段。

下面看幾個比較有用的 case：

1、視頻課程學(xué)習(xí)

上傳一個 7 分多鐘，大小 19.7 M 的 java 學(xué)習(xí)視頻，來拷打一下：

讓它幫我梳理總結(jié)下這個課程的內(nèi)容：

總結(jié)的不錯，可惜我當(dāng)年學(xué)習(xí) Java，沒這方便。這個場景在學(xué)習(xí)辦公下都非常有用。

我們可以總結(jié)會議內(nèi)容，電視劇劇情，電影經(jīng)典場面等。

3、GitHub 項目學(xué)習(xí)

我經(jīng)常會逛 GitHub 充電學(xué)習(xí)，但很多的開源項目都是英文的，看起來不順暢，就比如 GLM-4.5 V 這個開源項目，默認也是英文。

現(xiàn)在，我讓桌面助手中的 GLM-4.5 V 直接幫我介紹這個項目，非常實用。

翻譯

當(dāng)然還有個場景就是翻譯，對于非網(wǎng)頁類的場景，翻譯起來還真不容易，需要先截圖，然后 OCR 識別，最后再找翻譯工具。

這個過程一度很痛苦，現(xiàn)在不用，直接讓桌面助手來處理，分分鐘翻譯好了。

表格/圖表轉(zhuǎn)換

我覺得還比較實用的場景是做表格/圖表轉(zhuǎn)換。

基于 GLM-4.5 V 的圖像理解能力，能準(zhǔn)確識別表格和圖表信息，然后按照指定格式輸出。

非常方便，而且不用工具切來切去，就用桌面助手就 OK。

視覺定位

GLM-4.5 V 的視覺定位能力很強，而且這個的應(yīng)用場景會非常多。

比如我要在眾多復(fù)雜的場景中，精確找到符合的人物：找到橋下的一條船，船上有兩個人

反正這，我要找，確實得找半天。

再比如，在人多的商場，找到背著雙肩包穿灰色短袖的年輕男子。

感覺 GLM-4.5 V 接入安防監(jiān)控，會是非常好的場景啊。

我想 GLM-4.5 V 開源后，一堆的硬件落地產(chǎn)品又會出來了。

而且為了考考 GLM-4.5V 看圖猜位置的能力，智譜讓 GLM-4.5V 參加了圖尋游戲的全球積分賽，和國內(nèi)最頂尖的兩萬多名人類玩家真實對戰(zhàn)。

GLM-4.5V 就擊敗了 99% 的玩家。

GUI Agent

這個能力感覺是為了之后的 AutoGLM 鋪墊的，也就是能通過看到的 GUI，配合 Agent，完勝指定的操作。

我錄了個官方的視頻介紹，不得不說，期待性直接拉滿。

好啦，測評就結(jié)束了，你可以看到，這次 GLM-4.5 V 的更新，也同樣的有點超出預(yù)期了。

下面，是如何部署 AI 桌面助手的教程，主打一個有手就行。

部署教程

打開安裝包直接安裝。

安裝包可以后臺留言下載：vlm-helper

打第一次開會報這個錯：

沒關(guān)系，終端中輸入以下命令執(zhí)?安全限制解除命令，然后重啟應(yīng)用就好。xattr -rd com.apple.quarantine /Applications/vlm-helper.app

接下來，配置一下 API，點擊右上角的設(shè)置，選擇模型設(shè)置。(這里有個小 tips，一定要開啟「智譜 Mass 模式」，當(dāng)然默認就是開啟的，不要手滑關(guān)掉就好啦)

點擊右側(cè)的獲取 API Key，就會跳轉(zhuǎn)到智譜的 BigModel 平臺。

現(xiàn)在新用戶可以免費領(lǐng)取 2000 萬 tokens 體驗包，夠玩一陣了。

把新建的 API Key 復(fù)制到 Vlm-helper 客戶端, 點擊保存就算完成。

除此還可以進行應(yīng)用設(shè)置和系統(tǒng)提示詞設(shè)置。有不少快捷鍵還是很有幫助的。

先試試是否生效：

該說不說，回復(fù)真的好快。

這樣就生效啦。

在 AI 的路上，有些人，用力的沖了。

但因為沒短期獲得他們想要的，他們又撤了。

但有另外一群人，他們從一開始就在沖。

不管外面的風(fēng)雨如何變化，

他們始終相信 AGI 會到來，并為之不斷努力。

我覺得智譜這幫人就是這樣一群人。

當(dāng)然，我也希望屏幕前的你和我同樣也是這類人。

我們始終相信：AGI 一定會到來的。

本文由人人都是產(chǎn)品經(jīng)理作者【汪仔6818】，微信公眾號：【蒼何】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

蒼何

努力分享一些實用、有趣的AI干貨，讓您每一次閱讀都充滿啟發(fā)與驚喜！

14篇作品 39425總閱讀量

To B企業(yè)如何打造精簡的市場部門？

12-051302 瀏覽

2023年中國科技互聯(lián)網(wǎng)十大預(yù)測（上篇）

01-3110688 瀏覽

Keep上市，硬件立功

07-149855 瀏覽

B端業(yè)務(wù)體驗改版——體驗流程優(yōu)化（二）

10-242166 瀏覽

思考職業(yè)教育與K12教育的「不同」

08-223087 瀏覽

評論

趙甲

vlm-helper

最近來自廣東回復(fù)
汪仔4721

哪里可以下載 vlm-helper 啊，求分享謝謝

最近來自山東回復(fù)

用戶思維 | 用戶標(biāo)簽的構(gòu)建與應(yīng)用

07-1613111 瀏覽
Axure教程：將Figma導(dǎo)入Axure

10-1312253 瀏覽
外呼系統(tǒng)如何提升接通率？

04-266018 瀏覽

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆