GLM-4.5V 是怎么煉成的

0 評論 1162 瀏覽 0 收藏 11 分鐘

GLM-4.5V 的發(fā)布,無疑是這一賽道上的又一里程碑。它不僅在多模態(tài)理解和推理上實現(xiàn)了顯著提升,更通過其獨特的架構(gòu)設(shè)計、精細(xì)化的數(shù)據(jù)構(gòu)建以及強化學(xué)習(xí)的應(yīng)用,展示了強大的性能和廣泛的應(yīng)用潛力。

昨晚,GLM-4.5V 發(fā)布在開源多模態(tài)這一賽道,把桌子掀了

「多模態(tài)」智譜再次上桌,glm-4.5V 開源

實際用起來,也很不錯

比如我問問它:這是哪

完全正確!這張就是我在柔佛的上空拍的

ahhhhhhhhhh 他找到了!

原圖是這個,反正我一眼沒看出來

下面,我們一起來看看 GLM-4.5V,是如何訓(xùn)練的

劃重點:以推理為中心

本文將從性能、架構(gòu)、預(yù)訓(xùn)練和后訓(xùn)練(監(jiān)督微調(diào)+強化學(xué)習(xí))四個緯度來拆解,所用圖表、數(shù)據(jù)源于技術(shù)報告:《GLM-4.1V-Thinking and GLM-4.5V Technical Report》

GLM-4.5V 的技術(shù)報告

性能

在多模態(tài)理解和推理上,GLM-4.5V 比起之前模型,大幅提升

GLM-4.5 對比 之前的模型

在上圖中,GLM-4.5V 于STEM、空間推理、GUI Agent、OCR與文檔、代碼、視頻理解、視覺定位和通用VQA等領(lǐng)域,全面超越了前代模型

GLM-4.5V 的背后,是強化學(xué)習(xí)(RL)框架

經(jīng)過強化學(xué)習(xí),模型提升不少

在RL后,編碼(Coding)任務(wù)上增益高達(dá) +10.6%,在 STEM 問題上也獲得了 +6.7% 的提升

下面這個圖,則是更全面的對比

GLM-4.5 vs Step-3、Qwen2.5-VL、Kimi-VL..

GLM-4.5V 在 MMStar (75.3)、MMMU Pro(65.2)、MathVista (84.6)、ChartQAPro (64.0) 和 **WebVoyager **(84.4) 等幾乎所有高難度任務(wù)上,均取得了最佳成績

架構(gòu)

GLM-4.5V 的架構(gòu)設(shè)計,圍繞“原生多模態(tài)、高分辨率、強時序理解”三個目標(biāo)

這背后,是 視覺編碼器 (ViT Encoder)、MLP 投影層 (MLP Projector) 和 語言解碼器 (LLM Decoder) 三個組件

GLM-4.5V 的架構(gòu)

視覺編碼器

基于 AIMv2-Huge 初始化,通過引入 2D-ROPE 和 3D 卷積,使其能夠原生處理任意分辨率的圖像和視頻,并有效捕捉時序信息

語言解碼器

基于 GLM-4.5-Air,通過擴(kuò)展 3D-RoPE,增強了對多模態(tài)輸入中空間位置的理解能力

原生時序理解

在處理視頻時,模型會在每一幀的視覺特征后插入一個時間戳 Token,讓模型明確感知到幀與幀之間的真實時間間隔,極大地提升了視頻理解和定位的準(zhǔn)確性

預(yù)訓(xùn)練

GLM-4.5V 的預(yù)訓(xùn)練,分為數(shù)據(jù)構(gòu)建和訓(xùn)練范式兩部分

數(shù)據(jù)構(gòu)建

GLM-4.5V 的預(yù)訓(xùn)練語料,涵蓋了多維度數(shù)據(jù),包括:

圖像-文本對數(shù)據(jù)

通過一個包含啟發(fā)式過濾、CLIP-Score 篩選、概念平衡重采樣和事實中心化重述 (Factual-centered recaptioning) 的精細(xì)化流程,構(gòu)建了超過 100 億對的高質(zhì)量圖文數(shù)據(jù)

每個圖像都有更好的重述

如上圖,重述模型能將“一個北方紅雀在唱歌”這種簡單描述,豐富為“一只北方紅雀棲息在樹枝上,背景是晴朗的藍(lán)天”,在保留事實的同時,極大地提升了描述的細(xì)節(jié)和信息密度。

交錯圖文數(shù)據(jù)

從網(wǎng)頁、學(xué)術(shù)書籍中提取高質(zhì)量的圖文混排內(nèi)容,讓模型學(xué)習(xí)復(fù)雜的邏輯關(guān)系和領(lǐng)域知識

OCR 數(shù)據(jù)

構(gòu)建了包含 2.2 億張圖像的 OCR 數(shù)據(jù)集,涵蓋合成文檔、自然場景文字和學(xué)術(shù)文檔,全面提升文字識別能力

定位數(shù)據(jù) (Grounding Data)

構(gòu)建了包含 4000 萬自然圖像標(biāo)注和超過 1.4 億 GUI 界面問答對的混合定位數(shù)據(jù)集,賦予模型精確的像素級理解能力

視頻數(shù)據(jù)

通過精細(xì)的人工標(biāo)注,構(gòu)建了能夠捕捉復(fù)雜動作、場景文字和電影元素的高質(zhì)量視頻數(shù)據(jù)集。

訓(xùn)練范式:兩階段,長上下文

GLM-4.5V 的訓(xùn)練采用兩階段策略:

多模態(tài)預(yù)訓(xùn)練

在 8192 的序列長度下,使用除視頻外的所有數(shù)據(jù)進(jìn)行 12 萬步訓(xùn)練

長上下文持續(xù)訓(xùn)練:將序列長度擴(kuò)展至 32,768,并加入視頻數(shù)據(jù),進(jìn)行額外的 1 萬步訓(xùn)練,使模型具備處理高分辨率圖像、長視頻和長文檔的能力

后訓(xùn)練:SFT 與 RL

后訓(xùn)練階段是 GLM-4.5V 提升推理能力的關(guān)鍵,包含有監(jiān)督微調(diào) (SFT) 和強化學(xué)習(xí) (RL) 兩個步驟

有監(jiān)督微調(diào) (SFT):對齊思維范式

SFT 的目的是對齊模型的思維和表達(dá)方式,使其學(xué)會以“思考鏈 (Chain-of-Thought)”的形式進(jìn)行推理

標(biāo)準(zhǔn)格式

所有訓(xùn)練數(shù)據(jù)都遵循 <think>{思考過程}</think><answer>{最終答案}</answer> 的標(biāo)準(zhǔn)格式

答案提取:對于需要精確答案的任務(wù),最終答案用特殊的 <|begin_of_box|> 和 <|end_of_box|> 包裹,便于后續(xù) RL 階段的獎勵模型進(jìn)行準(zhǔn)確判斷

雙模態(tài)支持:GLM-4.5V 通過在 SFT 階段混合“思考”與“非思考”數(shù)據(jù),并引入特殊 token /nothink,實現(xiàn)了可靈活切換的兩種推理模式,兼顧性能與效率

強化學(xué)習(xí) (RL):釋放模型潛能

GLM-4.5V 通過大規(guī)模、跨領(lǐng)域的強化學(xué)習(xí),來提升推理能力

RLCS 課程學(xué)習(xí)采樣

為了提升訓(xùn)練效率,團(tuán)隊提出了 Reinforcement Learning with Curriculum Sampling (RLCS)該策略能根據(jù)模型的當(dāng)前能力,動態(tài)地選擇“難度適中”的訓(xùn)練樣本,避免在過易或過難的問題上浪費算力,從而最大化每一步訓(xùn)練的收益。

健壯的獎勵系統(tǒng)

RL 的成敗很大程度上取決于獎勵信號的質(zhì)量。GLM-4.5V 建立了一個領(lǐng)域特定的獎勵系統(tǒng),為數(shù)學(xué)、OCR、GUI 等不同任務(wù)設(shè)計了專門的驗證邏輯,避免了“獎勵黑客 (Reward Hacking)”現(xiàn)象

獎勵信號對模型訓(xùn)練的影響

如上圖所示,即使在 STEM 領(lǐng)域有高質(zhì)量的獎勵信號,但只要在多圖 VQA 任務(wù)中存在一個有缺陷的獎勵模型,就會導(dǎo)致整個訓(xùn)練過程在 150 步后全面崩潰

這說明,任何一個短板,都可能成為潰堤蟻穴,對于 RL 訓(xùn)練來說

跨域泛化與協(xié)同RL 不僅提升了模型在特定領(lǐng)域的能力,還帶來了顯著的跨域泛化效果

RL 的訓(xùn)練,帶來的不同領(lǐng)域的影響

如上圖:在單一領(lǐng)域進(jìn)行 RL 訓(xùn)練,能提升其他領(lǐng)域的能力

例如,僅在 GUI Agent 數(shù)據(jù)上訓(xùn)練,就能帶動 STEM、OCR、視覺定位和通用 VQA 的性能提升

這說明不同多模態(tài)能力之間存在共享的底層邏輯而將所有領(lǐng)域數(shù)據(jù)混合訓(xùn)練(Mix All),則能在大多數(shù)領(lǐng)域取得比單領(lǐng)域訓(xùn)練更強的效果,實現(xiàn)了“1+1 > 2”的協(xié)同增效

以上

GLM-4.5V 的訓(xùn)練,包含以下

  • 架構(gòu):原生支持高分辨率、長視頻和時序理解
  • 預(yù)訓(xùn)練:精細(xì)化的數(shù)據(jù)構(gòu)建和兩階段訓(xùn)練
  • SFT:將模型與“思考鏈”的推理范式對齊,為 RL 階段做好了準(zhǔn)備
  • RL:通過 RLCS、健壯的獎勵系統(tǒng)和跨域訓(xùn)練

以及…蹲后續(xù):GLM-4.5V-355B

本文由人人都是產(chǎn)品經(jīng)理作者【賽博禪心】,微信公眾號:【賽博禪心】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!