41個榜單SOTA!智譜最新開源GLM-4.5V實測:看圖猜地址、視頻秒變代碼

0 評論 895 瀏覽 1 收藏 19 分鐘

智譜昨夜甩出開源核彈 GLM-4.5V:42 項基準(zhǔn) 41 個 SOTA,100B 參數(shù)直接登頂多模態(tài)榜。它能看圖秒猜經(jīng)緯度、在《清明上河圖》里數(shù)馬、把視頻一鍵還原成代碼,甚至和人類頂尖玩家在圖尋游戲里 PK 到全球 66 名。API 低至 2 元/百萬 token,官方再送 2000 萬免費額度——玩 Demo 還是做生產(chǎn)力,現(xiàn)在就能上手。

智譜基于GLM-4.5打造的開源多模態(tài)視覺推理模型GLM-4.5V,在42個公開榜單中41項奪得SOTA!其功能涵蓋圖像、視頻、文檔理解、Grounding、地圖定位、空間關(guān)系推理、UI轉(zhuǎn)Code等。

這半年,多模態(tài)大模型已經(jīng)成為各家的標(biāo)配,但似乎功能都有點趨同,玩起來都有點膩了。

不過,今晚智譜最新開源的GLM-4.5V視覺推理模型,帶來了非常多的驚喜!

兩周前,智譜發(fā)布GLM-4.5,這個融合ARC(Agentic、Reasoning、Coding)能力的模型獲得非常高的關(guān)注。

取得了全球模型第三、國產(chǎn)模型第一,開源模型第一的成績!

智譜這次乘勝追擊!在GLM-4.5基座之上進(jìn)一步訓(xùn)練出100B級別最強開源多模態(tài)模型,成功在多模態(tài)賽道上占據(jù)一席之地。

GLM-4.5V「看懂世界」的方式,是真的有點東西,而且在智譜最近新推出的z.ai的平臺上,升級了很多視覺多模態(tài)的全新玩法。

比如這次更新后,GLM-4.5V可以玩看圖猜地址GeoGuessr游戲,而且準(zhǔn)確率非常高。

我們試了三次,每次的國家和大洲都非常準(zhǔn)確,不過具體經(jīng)緯度可能還需抽卡。

下面是其中一次測試,GLM-4.5V可以找到畫面中的關(guān)鍵元素,配合地理風(fēng)格、建筑風(fēng)格等來推理出正確結(jié)論。

值得一提的是,智譜還派出GLM-4.5V參加了國內(nèi)的圖尋游戲挑戰(zhàn),和國內(nèi)最頂尖的兩萬多名人類玩家真實對戰(zhàn)。

目前智譜已經(jīng)在全球排名66,而其他都是人類選手。

智譜這次更新的另一個玩法就是Grounding能力,GLM-4.5V眼神太好,可以在清明上河圖中找到三匹馬(左上角角落),并在圖中做出標(biāo)識。

GLM-4.5V不僅眼神好,還能理解視頻,而代碼能力又沿襲了它的基座模型GLM-4.5,兩者相加「涌現(xiàn)」出一種全新能力。

那就是,通過直接上傳視頻也能復(fù)刻網(wǎng)站!

神奇之處在于,GLM-4.5V完全沒有訓(xùn)練過「看視頻」前端網(wǎng)頁復(fù)刻,這個意外發(fā)現(xiàn)體現(xiàn)了GLM-4.5很強的泛化能力。

我們錄了一個Github的網(wǎng)站視頻。

GLM-4.5V竟然也可以復(fù)刻個七七八八。

下圖左邊是原版,右邊是復(fù)刻,大體框架沒有問題,有個別按鈕的位置,以及時間線組件被修改為列表等小問題。

在實測中,我們發(fā)現(xiàn),不論是GeoGuessr看圖挑戰(zhàn)、空間關(guān)系理解、復(fù)雜圖表推理、OCR識別、做題,甚至可以理解視頻等各個方面,GLM-4.5V的表現(xiàn)都遠(yuǎn)超預(yù)期。

GLM-4.5V一手實測

GLM-4.5V基于智譜發(fā)布的新一代旗艦文本基座模型GLM-4.5-Air,沿用了GLM-4.1V-Thinking的結(jié)構(gòu)。

其中,GLM-4.1V-Thinking 7月上線后就登上了HuggingFace Trending第一,模型已獲得累計超過13萬次下載。

Github:

https://github.com/zai-org/GLM-V

Hugging Face:

https://huggingface.co/collections/zai-org/glm-45v-

68999032ddf8ecf7dcdbc102

魔搭社區(qū):

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

GLM-4.1V-Thinking是一個小參數(shù)模型,而全新的GLM-4.5V擁有106B總參數(shù),12B的激活參數(shù)。

可以說,GLM-4.5V是100B參數(shù)這個「重量級」的SOTA標(biāo)桿,現(xiàn)已經(jīng)登錄官網(wǎng)。

GLM-4.5V實測了42個公開視覺多模態(tài)榜單,在其中41個榜單中,達(dá)到同級別開源模型的SOTA性能,涵蓋圖像、視頻、文檔理解以及GUI Agent等常見任務(wù)。

GLM-4.5V這次升級了很多玩法,實現(xiàn)全場景視覺推理覆蓋,比如:

  1. 圖像推理(場景理解、復(fù)雜多圖分析、位置識別)
  2. 視頻理解(長視頻分鏡分析、事件識別)
  3. GUI任務(wù)(屏幕讀取、圖標(biāo)識別、桌面操作輔助)
  4. 復(fù)雜圖表與長文檔解析(研報分析、信息提?。?/li>
  5. Grounding能力(精準(zhǔn)定位視覺元素)

此次更新,模型新增「思考模式」開關(guān),可以自行決定是否啟用推理功能。

體驗網(wǎng)站:https://chat.z.ai/

此外,繼上次GLM-4.5「V50包月」活動,這次GLM-4.5V為企業(yè)與開發(fā)者提供高性價比的多模態(tài)AI解決方案:

  1. API調(diào)用價格:低至輸入2元/Mtokens,輸出6元/Mtokens
  2. 響應(yīng)速度:達(dá)到60-80tokens/s
  3. API接口文檔:http://docs.bigmodel.cn/api-reference

GLM-4.5V API現(xiàn)已上線智譜開放平臺BigModel.cn,智譜為所有新老用戶準(zhǔn)備了2000萬Tokens的免費資源包。

領(lǐng)取鏈接:

https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv

精準(zhǔn)識別和定位目標(biāo)物體

GLM-4.5V能夠從圖片中理解并識別出具體的目標(biāo)的物體。

可以在界面上直接選擇Grounding模式,傳入圖片和提示詞即可。

比如上傳了一張AI隨機生成的圖片,GLM-4.5V的推理能力可以從圖片中準(zhǔn)確識別出「非現(xiàn)實」的物體,就是紅框中看著像昆蟲的灑水機器人。

簡單介紹下Grounding能力,在計算機視覺與多模態(tài)任務(wù)中,Grounding能力指的是模型將自然語言中的詞語或短語,精確地與圖像中的具體區(qū)域或?qū)ο蠼?yīng)關(guān)系的能力。

它不僅要求模型能「看懂」圖片,也能「讀懂」文字,并在兩者之間建立準(zhǔn)確的語義—視覺映射。

較知名的Flickr30k Entities數(shù)據(jù)集

并且GLM-4.5V的Grounding的能力還附帶了「推理魔法」。

比如下面這張《我,機器人》劇照中,有一個機器人明顯看著比其他機器人更有靈魂。

GLM-4.5V一下子就找到了!這確實很令人驚訝,4.5V的視覺能力已經(jīng)可以理解表情了。

而且你仔細(xì)看這個Grounding的Box,完全貼著右下角的機器人,即使是胳膊部分也幾乎相切,確實有點東西。

看圖猜地址

除了可以在GeoGuessr中玩,GLM-4.5V這次還可以通過隨機照片來推理地址。

比如上傳一張照片,GLM-4.5V能通過建筑特征來識別照片是在哪里拍攝的。

這個推理結(jié)果和GPT-5 Pro結(jié)果相同。

甚至在描述判斷邏輯方面,GLM-4.5V看起來更勝一籌,因為模型不僅注意到建筑風(fēng)格,還從門牌號上識別到北歐古典建筑。

視頻理解能力

這次GLM-4.5V另一個重大更新就是視頻理解。

類似這種超現(xiàn)實主義的視頻,GLM-4.5V也能完全get到視頻中的重點元素和隱喻含義。

它甚至識別出了特斯拉Cybertruck。

或者像這種偏重于抽象的視頻,GLM-4.5V也能理解,并且可以給出非常深度的解釋。

宇宙、人類、精神、靈魂、科技、藝術(shù),GLM-4.5V還是真的大超預(yù)期。

空間關(guān)系理解

視覺能力中,有一項很重要的空間理解能力,比如這個包含常見物體空間關(guān)系圖。

我們隨機給關(guān)系打上馬賽克,然后讓GLM-4.5V來定義物體的空間關(guān)系。

單箭頭的情況下,多次測試GLM-4.5V每次都可以判斷正確,正確率100%。

多個箭頭的情況下,會有偶爾的識別出現(xiàn)失誤,比如應(yīng)該是Behind的情況會識別為旁邊。

但整體模型在空間理解上,來的一個新的高度。

前端能力:UI到Code

這次GLM-4.5V更新的另一大看點是可以通過UI界面直接轉(zhuǎn)化為Code。

比如我們用GLM-4.5V的官網(wǎng)截圖制作了一個「它自己」。

不得不說,GLM-4.5V編程能力確實很強,做出來的網(wǎng)站一模一樣,甚至連左側(cè)的Emoji都帶上了,畫面比例和UI風(fēng)格也做到了1:1復(fù)刻。

圖像識別能力

有名的Magic Eye測試圖片集,GLM-4.5V也能準(zhǔn)確識別,比如下圖這種多種魚類拼湊的重復(fù)畫面。

GLM-4.5V甚至可以定位到「橙色帶條紋」,肉眼想看的話,還是需要放大并且仔細(xì)觀察的。

視覺模型的「數(shù)數(shù)」能力

再來一個世界模型經(jīng)常遇到的「數(shù)數(shù)」問題,模型需要識別圖片中的物體種類和數(shù)量。

這些問題對于人類來說很簡單,但是對于VLM就沒那么容易了。

在這種「目標(biāo)搜索」任務(wù)中VLM的表現(xiàn),會隨著場景里目標(biāo)數(shù)量的增多而迅速下降。

GLM-4.5V準(zhǔn)確的識別到松餅和羊,并且完成了左上、左下和右上的數(shù)量識別。

右下人類也很難數(shù)得清,但GLM-4.5V表示他數(shù)了個大概,非常擬人了,這里的處理幾乎可以說得上完美。

以上實測并不是測試的全部,但是GLM-4.5V除了能力很強外,最大的特點是又快又好玩,基本上很多任務(wù)都是秒出。

而且更有意思的是,每個任務(wù)都會自動匹配一個題目+一個Emoji,這代表模型真正的理解了任務(wù)的核心。

很多Emoji配的都無比形象,這在其他很多產(chǎn)品中都沒有這個功能。

技術(shù)創(chuàng)新

開頭我們介紹了GLM-4.5V基于智譜新發(fā)布的新一代旗艦文本基座模型GLM-4.5-Air,沿用GLM-4.1V-Thinking的結(jié)構(gòu)。

GLM-4.5V模型原理

GLM-4.5V由視覺編碼器、MLP 適配器和語言解碼器三部分組成,支持64K多模態(tài)長上下文。

視覺編碼器采用AIMv2-Huge,支持圖像與視頻輸入,并通過三維卷積提升視頻處理效率。

模型引入三維旋轉(zhuǎn)位置編碼(3D-RoPE)和雙三次插值機制,增強了對高分辨率和極端寬高比圖像的適應(yīng)性。

同時,語言解碼器中的位置編碼擴展為3D 形式(3D-RoPE),進(jìn)一步提升了多模態(tài)空間理解能力。

GLM-4.5V訓(xùn)練策略

GLM-4.5V 采用三階段策略:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)。

  1. 在預(yù)訓(xùn)練階段,結(jié)合大規(guī)模圖文交錯多模態(tài)語料和長上下文內(nèi)容,強化了模型對復(fù)雜圖文及視頻的處理能力
  2. 在SFT階段,引入了顯式「思維鏈」格式訓(xùn)練樣本,增強了GLM-4.5V的因果推理與多模態(tài)理解能力;
  3. 在RL階段,引入全領(lǐng)域多模態(tài)課程強化學(xué)習(xí),通過構(gòu)建多領(lǐng)域獎勵系統(tǒng)(RewardSystem),結(jié)合可驗證獎勵強化學(xué)習(xí)(RLVR)與基于人類反饋的強化學(xué)習(xí)(RLHF),GLM-4.5V在STEM問題、多模態(tài)定位、Agent任務(wù)等方面獲得全面優(yōu)化。

更多技術(shù)細(xì)節(jié),請查看發(fā)布的GLM-4.5V技術(shù)報告。

https://github.com/zai-org/GLM-V

從4月份OpenA的GPT-4o「原生全能多模態(tài)模型」引發(fā)的「吉卜力熱」就能看出,多模態(tài)是模型發(fā)展的必然。

多模態(tài)這一能力之所以重要,在于它模擬了人類利用多種感官綜合感知世界的方式。

通過將不同模態(tài)的信息優(yōu)勢結(jié)合,AI系統(tǒng)能夠?qū)?fù)雜場景作出更整體化的判斷。

而集成視覺、文本、推理、看視頻等能力的視覺推理模型正成為企業(yè)側(cè)升級的主戰(zhàn)場。

多模態(tài)大模型正從實驗室走向現(xiàn)實,用例也從單一走向多元,整體價值也從演示Demo走向真正地實用。

視覺語言模型在提升人機交互自然度、提高專業(yè)工作效率、創(chuàng)造新內(nèi)容形態(tài)等方面具有巨大潛力。

總體來看,多模態(tài)大模型已從「能力驗證」走向「規(guī)模落地」。

海外以O(shè)penAI GPT、谷歌Gemini、Anthropic Claude領(lǐng)跑。

國內(nèi)阿里Qwen?VL、智譜GLM、字節(jié)Seed等在追趕并局部反超。

而GLM-4.5V為代表的視覺推理模型,將成為AI進(jìn)化的新方向,未來的AI模型不僅要看得懂,還要能自主推理。

參考鏈接:

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。 編輯:定慧

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!