保姆級教程:部署你的AI桌面助手
凌晨 2 點 25 分,作者頂著熊貓眼,把智譜最新開源的 GLM-4.5V 大模型狠狠測了一遍,結(jié)論是——這 106B 參數(shù)的多模態(tài)“怪獸”不僅看得懂、算得快,還干得漂亮。保姆級教程、安裝包、API 白嫖指南全打包,5 分鐘讓你的電腦也長出 AI 眼睛和大腦。
我真是有點服,智譜又又又發(fā)布了新模型。
然后又給開源了。生產(chǎn)隊的驢都不帶這么卷的,我都懷疑智譜是不是嗑藥了。
7 月初開源 GLM-4.1V-Thinking,上周開源 GLM-4.5 和 GLM-4.5-Air,今天又開源了個 GLM-4.5 V。
晚上我聽了他們的直播發(fā)布會,幾個青澀的年輕人給介紹了這次發(fā)布的模型,時間很短,但卻不簡單。
我想第二天一定會有超級多的人來測,來玩,導(dǎo)致卡的無法使用?;谇败囍b,我還是打算今晚就給測完,痛快的體驗下它的能力,
現(xiàn)在是凌晨 2 點 25,終于測完了,還好,這次沒到五點,說明有進步,不然明天去上海怕是頂不住。
先說我測試下來的結(jié)論吧:GLM-4.5V 模型在多模態(tài)能力上表現(xiàn)很好,特別是在圖像/視頻理解、視覺定位上表現(xiàn)優(yōu)異。
現(xiàn)在同樣可以在 z.ai 體驗,但作為開發(fā)者,我更傾向于用 API 方式來驗證一些東西。
恰好他們開源了個桌面助手 vlm-helper,于是以下我所有的測評都基于該桌面助手。
我也會在文章后面給出該桌面助手的安裝包以及教程。
當(dāng)然,按照慣例,在放真實測評前,還是要放一放模型的跑分情況(雖然大家都看麻了)
可以看出在 42 個公開視覺多模態(tài)榜單中綜合效果達到同級別開源模型 SOTA 性能,涵蓋圖像、視頻、文檔理解及 GUI 任務(wù)等常見任務(wù)。
據(jù)官方介紹,GLM-4.5V 是基于智譜新一代旗艦文本基座模型 GLM-4.5-Air,延續(xù) GLM-4.1V-Thinking 技術(shù)路線,是一個擁有106B總參數(shù),12B激活的視覺推理模型。
但口說無憑,真實體驗如何,還得實際測試。下面開整。
前端復(fù)刻
官方直播的視頻放出了復(fù)刻帶有交互的知乎網(wǎng)站。而且是通過錄屏的方式,看著挺厲害的。
但像這類公開的網(wǎng)站早就不知道被大模型訓(xùn)練了多少次了,參考意義不大。
于是,我靈機一動,何不復(fù)刻下我的開源項目 PmHub?這夠小眾吧。
于是,我也對著 PmHub 錄了個屏,也就是正常點擊頁面的功能。然后吧視頻丟給 vlm-helper,GLM-4.5 V 識別理解視頻內(nèi)容和操作,然后按照要求輸出代碼。
我的提示詞是這個:
請根據(jù)提供的多張網(wǎng)頁 UI 截圖,復(fù)刻出完整的交互式網(wǎng)頁,實現(xiàn)整個網(wǎng)頁的點擊、跳轉(zhuǎn)、交互等功能,請注意,每一張UI截圖都會對應(yīng)某個操作,請務(wù)必實現(xiàn)點擊、跳轉(zhuǎn)等交互操作,不要在thinking過程中思考html code怎么寫。最終返回一個完整html code。
我把前端效果做了個對比:
就單單從前端復(fù)刻能力上,沒啥意思,因為像 Weavefox 和same.new 這樣的工具做的細節(jié)會更到位。
但就從視頻理解整個頁面交互,這個就很吊了。這種感覺就好像 GLM-4.5 V 長了個眼鏡,又帶了個大腦,能看能理解,最后還能咔咔一頓編碼輸出。
圖像理解
下面是對多模態(tài)能力進行測試,但因為是 AI 桌面助手,我覺得在我們的測評中還是要以實際的工作學(xué)習(xí)場景展開。
所以以下 case,均模擬真實需求場景。
1、找出性價比最高的商品
最近在廈門抽了中了個手機,一直想著買個手機殼,但一搜,就蹦出一堆出來,容易讓人挑花了眼。
我其實就一個需求,選個性價比高的,就夠了。
于是我一截圖,輸入需求然后一回車,GLM-4.5 V 就給我推了個最具性價比的手機殼。
這里考察的是模型對圖片的理解能力,以及邏輯計算能力。GLM-4.5 V 表現(xiàn)不錯。
2、微信回復(fù)
我每天對著電腦要花費非常多的時間在微信上,有時候是工作,有時候是摸魚吹水。
就比如在吹水群,好朋友 kk 碰到奇葩的抱怨,作為鋼鐵直男,我一時不知道該怎么回復(fù)好。
于是我讓桌面助手捕捉我的屏幕中微信聊天記錄,它就給了我一個沒那么尷尬的回復(fù)。
講真,如果我要回,我估計是先破口大罵幫問候一下這奇葩,但 GLM-4.5 V 理解到了,此時,kk 或許更需要的是共情以及安慰。
雖然它還沒法直接幫我發(fā)消息,但這個情商是比大多數(shù)直男都高的(包括老蒼何)
3、朋友圈旅游照定位
朋友圈經(jīng)常會看到旅游照,有時候除了羨慕之外,也特別想知道這是去的哪兒耍呀,但又不好意思評論區(qū)或者私信直接問。
生怕暴露了自己窮屌絲的本質(zhì),現(xiàn)在,我將朋友圈共享給 GLM-4.5 V,然后問它:這是哪兒。
GLM-4.5 V 憑借對圖片特征的提取,能給出是哪里。
不瞞你說,就 kk 發(fā)的這個圖,我一時還真沒想到會是在青島,雖然,我在青島呆了 4 年。。。
順帶,讓懂事的 GLM-4.5 V 給 kk 來個回復(fù)評論吧,真好,有了 AI,倒是省去了很多我不必要的思考。
4、驗證碼任務(wù)完成
雖然我是做軟件的,我能理解很多網(wǎng)站為了安全加固,會喜歡搞比較麻煩的驗證,來證明自己是個人。
就比如智譜他們自家的這個登錄驗證:
對于我這眼神不好的來說,每次還是挺費勁的。
現(xiàn)在好了,把這個丟給 GLM-4.5 V,它直接把答案給你標(biāo)注出來,這家伙,配合上 Agent,不是全自動化繞過驗證?
你感受一下:
真實道高一尺魔高一丈,估計智譜法務(wù)得好好加班研究研究應(yīng)對之策了,不然像 12306 這種最痛苦的驗證方式,不也能分分鐘破解?
你還別說,基于此,我還真就做了個小工具,讓你繞過所有的強制性驗證。
視頻理解
除了圖片理解,我覺得更難的是視頻的理解能力,而最為重要的也是視頻理解的能力。
因為我們的物理世界是三維的,而非二維的,對視頻的理解,是通過 AGI 的重要手段。
下面看幾個比較有用的 case:
1、視頻課程學(xué)習(xí)
上傳一個 7 分多鐘,大小 19.7 M 的 java 學(xué)習(xí)視頻,來拷打一下:
讓它幫我梳理總結(jié)下這個課程的內(nèi)容:
總結(jié)的不錯,可惜我當(dāng)年學(xué)習(xí) Java,沒這方便。這個場景在學(xué)習(xí)辦公下都非常有用。
我們可以總結(jié)會議內(nèi)容,電視劇劇情,電影經(jīng)典場面等。
3、GitHub 項目學(xué)習(xí)
我經(jīng)常會逛 GitHub 充電學(xué)習(xí),但很多的開源項目都是英文的,看起來不順暢,就比如 GLM-4.5 V 這個開源項目,默認也是英文。
現(xiàn)在,我讓桌面助手中的 GLM-4.5 V 直接幫我介紹這個項目,非常實用。
翻譯
當(dāng)然還有個場景就是翻譯,對于非網(wǎng)頁類的場景,翻譯起來還真不容易,需要先截圖,然后 OCR 識別,最后再找翻譯工具。
這個過程一度很痛苦,現(xiàn)在不用,直接讓桌面助手來處理,分分鐘翻譯好了。
表格/圖表轉(zhuǎn)換
我覺得還比較實用的場景是做表格/圖表轉(zhuǎn)換。
基于 GLM-4.5 V 的圖像理解能力,能準(zhǔn)確識別表格和圖表信息,然后按照指定格式輸出。
非常方便,而且不用工具切來切去,就用桌面助手就 OK。
視覺定位
GLM-4.5 V 的視覺定位能力很強,而且這個的應(yīng)用場景會非常多。
比如我要在眾多復(fù)雜的場景中,精確找到符合的人物:找到橋下的一條船,船上有兩個人
反正這,我要找,確實得找半天。
再比如,在人多的商場,找到背著雙肩包穿灰色短袖的年輕男子。
感覺 GLM-4.5 V 接入安防監(jiān)控,會是非常好的場景啊。
我想 GLM-4.5 V 開源后,一堆的硬件落地產(chǎn)品又會出來了。
而且為了考考 GLM-4.5V 看圖猜位置的能力,智譜讓 GLM-4.5V 參加了圖尋游戲的全球積分賽,和國內(nèi)最頂尖的兩萬多名人類玩家真實對戰(zhàn)。
GLM-4.5V 就擊敗了 99% 的玩家。
GUI Agent
這個能力感覺是為了之后的 AutoGLM 鋪墊的,也就是能通過看到的 GUI,配合 Agent,完勝指定的操作。
我錄了個官方的視頻介紹,不得不說,期待性直接拉滿。
好啦,測評就結(jié)束了,你可以看到,這次 GLM-4.5 V 的更新,也同樣的有點超出預(yù)期了。
下面,是如何部署 AI 桌面助手的教程,主打一個有手就行。
部署教程
打開安裝包直接安裝。
安裝包可以后臺留言下載:vlm-helper
打第一次開會報這個錯:
沒關(guān)系,終端中輸入以下命令執(zhí)?安全限制解除命令,然后重啟應(yīng)用就好。xattr -rd com.apple.quarantine /Applications/vlm-helper.app
接下來,配置一下 API,點擊右上角的設(shè)置,選擇模型設(shè)置。(這里有個小 tips,一定要開啟「智譜 Mass 模式」,當(dāng)然默認就是開啟的,不要手滑關(guān)掉就好啦)
點擊右側(cè)的獲取 API Key,就會跳轉(zhuǎn)到智譜的 BigModel 平臺。
現(xiàn)在新用戶可以免費領(lǐng)取 2000 萬 tokens 體驗包,夠玩一陣了。
把新建的 API Key 復(fù)制到 Vlm-helper 客戶端, 點擊保存就算完成。
除此還可以進行應(yīng)用設(shè)置和系統(tǒng)提示詞設(shè)置。有不少快捷鍵還是很有幫助的。
先試試是否生效:
該說不說,回復(fù)真的好快。
這樣就生效啦。
在 AI 的路上,有些人,用力的沖了。
但因為沒短期獲得他們想要的,他們又撤了。
但有另外一群人,他們從一開始就在沖。
不管外面的風(fēng)雨如何變化,
他們始終相信 AGI 會到來,并為之不斷努力。
我覺得智譜這幫人就是這樣一群人。
當(dāng)然,我也希望屏幕前的你和我同樣也是這類人。
我們始終相信:AGI 一定會到來的。
本文由人人都是產(chǎn)品經(jīng)理作者【汪仔6818】,微信公眾號:【蒼何】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
vlm-helper
哪里可以下載 vlm-helper 啊,求分享 謝謝