剛剛,小紅書開源了首個(gè)多模態(tài)大模型dots.vlm1,性能直追SOTA!
兩個(gè)月內(nèi)連發(fā)三彈,小紅書今天把「看懂世界」的大招也開源了!全新多模態(tài)大模型 dots.vlm1 基于 12 億參數(shù)自研視覺編碼器 + DeepSeek V3,色盲圖、數(shù)獨(dú)、高考數(shù)學(xué)題、李白風(fēng)格寫詩統(tǒng)統(tǒng)拿下,視覺推理直逼 Gemini 2.5 Pro,代碼已全量公開,實(shí)測驚艷到尖叫!
小紅書正加大技術(shù)自研力度,兩個(gè)月內(nèi)接連開源三款模型!最新開源的首個(gè)多模態(tài)大模型dots.vlm1,基于自研視覺編碼器構(gòu)建,實(shí)測看穿色盲圖,破解數(shù)獨(dú),解高考數(shù)學(xué)題,一句話寫李白詩風(fēng),視覺理解和推理能力都逼近Gemini 2.5 Pro閉源模型。
最近的AI圈只能說是神仙打架,太卷了。
OpenAI終于發(fā)了開源模型,Claude從Opus 4升級(jí)到4.1,谷歌推出生成游戲世界的Genie 3引發(fā)社區(qū)熱議。
國產(chǎn)模型這邊,就在前幾天,HuggingFace上排在最前面的10個(gè)開源模型還都來自國內(nèi)。
國產(chǎn)模型前10霸榜和gpt-oss開源后直沖第一
但其實(shí)仔細(xì)觀察這些排名靠前的開源模型,能發(fā)現(xiàn)一個(gè)「現(xiàn)象」:這些模型大部分都是文本模型,不具備多模態(tài)能力。
OpenAI首次開源的模型,也都是文本模型
如果說具備「多模態(tài)」能力,還要「好用」,并且是開源的模型,還真的數(shù)不出幾個(gè)。
這邊是一群文本模型神仙打架,那邊小紅書人文智能實(shí)驗(yàn)室(Humane Intelligence Lab,hi lab)在昨天低調(diào)開源了視覺語言模型dots.vlm1,給VLM帶來了意想不到的驚喜。
為什么我們要關(guān)注一個(gè)不知名團(tuán)隊(duì)開源的視覺語言模型?
一個(gè)理由是,hi lab在上周開源的dots.ocr文檔解析模型沖上了Huggingface的熱榜第七,其基礎(chǔ)模型是一個(gè)17億參數(shù)的「小模型」,但依然實(shí)現(xiàn)了業(yè)界領(lǐng)先的SOTA性能,成功引起了我們的注意。
這個(gè)團(tuán)隊(duì)有在認(rèn)真做事?。?/p>
仔細(xì)看了看這個(gè)團(tuán)隊(duì)的架構(gòu)和愿景,發(fā)現(xiàn)「hi lab」是由小紅書內(nèi)部大模型技術(shù)與應(yīng)用產(chǎn)品團(tuán)隊(duì)合并升級(jí)而來,在關(guān)于hi lab的官方介紹中,特別強(qiáng)調(diào)了「將研發(fā)重點(diǎn)放在了多元智能形態(tài)上」。
他們希望通過融合人際智能、空間智能、音樂智能、人文關(guān)懷等各種智能形態(tài),不斷拓展人機(jī)交互的可能性。
對(duì)多模態(tài)的信仰和投入的決心可見一斑。
而dots.vlm1,正是小紅書hi lab研發(fā)并開源的首個(gè)多模態(tài)大模型。
這個(gè)模型基于hi lab全自研的12億參數(shù)NaViT視覺編碼器和DeepSeek V3的大語言模型構(gòu)建,在視覺的理解和推理任務(wù)上均有不俗的表現(xiàn),接近了SOTA水平,并且在純文本任務(wù)中仍保持競爭力。
在主要的視覺評(píng)測集上,比如MMMU/MathVision/OCR Reasoning,dots.vlm1的整體表現(xiàn)已接近當(dāng)前領(lǐng)先模型Gemini 2.5 Pro與Seed-VL1.5 Thinking,顯示出較強(qiáng)的圖文理解與推理能力。
在典型的文本推理任務(wù)(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表現(xiàn)大致相當(dāng)于DeepSeek-R1-0528,在數(shù)學(xué)和代碼能力上已具備一定的通用性,但在GPQA等更多樣的推理任務(wù)上仍存在差距。
總體來看,dots.vlm1在視覺多模態(tài)能力方面已接近SOTA水平。
Github Repo:
https://github.com/rednote-hilab/dots.vlm1
Huggingface Model:
https://huggingface.co/rednote-hilab/dots.vlm1.inst
Demo :
https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo
在實(shí)測中,我們發(fā)現(xiàn),不論是空間關(guān)系理解、復(fù)雜圖表推理、OCR識(shí)別、高考題評(píng)測、STEM難題、寫詩等各個(gè)方面,dots.vlm1的表現(xiàn)都遠(yuǎn)超預(yù)期。
實(shí)測驚艷,很能打
首先是空間理解,比如這個(gè)包含常見物體空間關(guān)系圖。
為了避免模型靠著語義來跳過真正的理解過程,隨機(jī)給兩個(gè)關(guān)系打上馬賽克,然后讓dots.vlm1來定義物體的空間關(guān)系。
最終模型成功識(shí)別,精準(zhǔn)給出了「between」和「above」的關(guān)系。
面對(duì)復(fù)雜圖表,dots.vlm1也具備強(qiáng)大的分析能力。
比如要求從下面圖表提取分?jǐn)?shù)為50-59分,并且模型名稱中帶有字母P的模型。
dots.vlm1在思考過程中即可同步多段邏輯判斷,像這種多鏈條復(fù)雜推理體現(xiàn)了dots.vlm1不僅能「看」,還能「思考」。
同樣地,即使是數(shù)獨(dú)問題,dots.vlm1也能完美地完成解題。
模型第一步會(huì)將問題格式化,方便后續(xù)計(jì)算。
然后開始逐步試算和檢查,可以看到dots.vlm1將圖片中的數(shù)獨(dú)問題轉(zhuǎn)化為了向量描述,確實(shí)是一種聰明的做法。
在長時(shí)間的思考過程中,我們還發(fā)現(xiàn)了類似DeepSeek「啊哈時(shí)刻」,dots.vlm1在某個(gè)階段還喊出擬人化的「Yes!」。
不過仔細(xì)看了思考過程后,發(fā)現(xiàn)第一步向量化轉(zhuǎn)化時(shí),(3,8)位置的6被識(shí)別到(3,9)位置上,但是模型依然「嚴(yán)格按照數(shù)獨(dú)規(guī)范」,最后強(qiáng)行將(6,9)位置的6變成8。
這個(gè)推理過程有點(diǎn)太強(qiáng)了!這意味著模型是真正的在思考和推理。
解決這個(gè)數(shù)獨(dú)問題的思考時(shí)間非常長,關(guān)鍵是如此長時(shí)間思考,模型并沒有中斷。
dotas.vlm1的圖像識(shí)別能力也非常強(qiáng),不論是常見還是冷門的,還是人類都很難識(shí)別的圖片。
比如經(jīng)典的紅綠色盲數(shù)字問題。
dots.vlm1一次性全部答對(duì),不論是顏色和形狀識(shí)別都很準(zhǔn)。
另外是一個(gè)VLM經(jīng)常遇到的「數(shù)數(shù)」問題,模型需要識(shí)別圖片中的物體種類和數(shù)量。
這些問題對(duì)于人類來說很簡單,但是對(duì)于VLM就沒那么容易了。
在這種「目標(biāo)搜索」任務(wù)中VLM的表現(xiàn),會(huì)隨著場景里目標(biāo)數(shù)量的增多而迅速下降。
可以看到當(dāng)物體數(shù)量超過6個(gè)時(shí),VLM的準(zhǔn)確率急劇下降。
dots.vlm1很好的完成了左上、左下和右上的數(shù)量識(shí)別;右下人類也很難數(shù)得清,但dots.vlm1依然在思考過程中努力數(shù)了個(gè)大概。
再接著看看推理能力。
比如你正在組團(tuán)前往故宮博物院,你們一行一共8人(7名成人和一名12歲的兒童),你們打算參觀中軸線、三大殿和珍寶館,應(yīng)該購買哪個(gè)服務(wù)最省錢?
dots.vlm1很快就整合信息所有信息計(jì)算出了最佳方案,非常細(xì)節(jié),模型發(fā)現(xiàn)了中軸線其實(shí)已經(jīng)包含了三大殿,選擇了中軸線+珍寶館的方案。
這個(gè)「數(shù)學(xué)計(jì)算」似乎有點(diǎn)簡單,那就來個(gè)復(fù)雜的,第一時(shí)間就想到今年的高考數(shù)學(xué)題。
dots.vlm1首先是能準(zhǔn)確識(shí)別「模糊」的內(nèi)容,最后給出的解答過程也非常棒。
結(jié)果做了很好的格式化處理,并且還把每個(gè)題目的答案用方框重點(diǎn)標(biāo)識(shí)。
除了視覺和推理能力,我們還嘗試問了很多「冷門」問題。
比如「鼷鹿」(Chevrotain)是何種類群的動(dòng)物?其主要棲息地在哪?提供兩條參考文獻(xiàn)。
這個(gè)模型也能準(zhǔn)確回答這個(gè)冷門動(dòng)物的相關(guān)知識(shí)。
對(duì)于文物的識(shí)別,dots.vlm1也不在話下。
即使是三個(gè)物體的合并的圖片,dots.vlm1也能精準(zhǔn)分割圖像,并給出正確結(jié)果。
還給出了文物的出土地址和詳細(xì)介紹。
甚至,我們還可以用dots.vlm1來做行測。
經(jīng)過復(fù)雜的思考后,模型給出了正確答案,「方向水平且兩端符號(hào)相同」。
最后,來測測VLM的老本行,文本能力到底如何?
「模仿李白的詩詞風(fēng)格,寫一首詩,來描述一下劉慈欣在《詩云》中提到的詩云究竟是什么」。
真的很厲害,dots.vlm1的思考過程一下子把握住了問題的精髓:「同時(shí)處理科幻概念和唐詩韻味」。
你覺得這首詩寫得怎么樣?
嗟乎!詩云浩渺如星海,難寫凡心半點(diǎn)柔!
寫得真的太好了!
《詠詩云》
神工鑿混沌,揮斥造詩云!
十億星辰化墨稠,銀河作硯瀉瓊流。
窮盡漢字無窮態(tài),排列組合演春秋。
上窮碧落下黃泉,搜羅萬古意與愁。
李杜蘇辛皆囊括,珠璣字字現(xiàn)星眸。
此云非霧亦非煙,乃是文明終極求。
量子糾纏蘊(yùn)真意,概率之海任沉浮。
揮毫落紙?jiān)茻熒?,神跡雖成意難留。
嗟乎!詩云浩渺如星海,難寫凡心半點(diǎn)柔!
dots.vlm1技術(shù)架構(gòu)
dots.vlm1由三個(gè)核心組件構(gòu)成:一個(gè)全自研的12億參數(shù)的NaViT視覺編碼器、一個(gè)輕量級(jí)的MLP適配器,以及DeepSeek V3 MoE大語言模型。
這一架構(gòu)通過三階段流程進(jìn)行訓(xùn)練:
第一階段:視覺編碼器預(yù)訓(xùn)練:NaViT編碼器從頭訓(xùn)練,旨在最大化對(duì)多樣視覺數(shù)據(jù)的感知能力。一般來說,編碼器是否自研是VLM模型性能的分水嶺。dots.vlm1再次驗(yàn)證了這一點(diǎn)。
第二階段:VLM預(yù)訓(xùn)練:將視覺編碼器與DeepSeek V3 LLM聯(lián)合訓(xùn)練,使用大規(guī)模、多樣化的多模態(tài)數(shù)據(jù)集。
第三階段:VLM后訓(xùn)練:通過有監(jiān)督微調(diào)(SFT)增強(qiáng)模型的泛化能力,僅使用任務(wù)多樣的數(shù)據(jù)進(jìn)行訓(xùn)練。
NaViT視覺編碼器,「從零起步」帶來的原生優(yōu)勢
dots.vlm1沒有基于成熟視覺編碼器進(jìn)行微調(diào),而是完全從零開始訓(xùn)練,原生支持動(dòng)態(tài)分辨率。
這使得模型原生支持高分辨率輸入,是專為視覺語言模型設(shè)計(jì)的視覺編碼器模型。
模型規(guī)模有42層Transformer、1.2B參數(shù)為高分辨率留出足夠表示容量。
dots.vlm1為NaViT編碼器設(shè)計(jì)了兩階段的訓(xùn)練策略。
第一階段:預(yù)訓(xùn)練
訓(xùn)練起點(diǎn)完全隨機(jī)初始化,避免舊架構(gòu)「分辨率錨點(diǎn)」束縛,原生支持動(dòng)態(tài)分辨率。
從隨機(jī)初始化開始,在224×224分辨率圖像上進(jìn)行訓(xùn)練,讓模型學(xué)會(huì)基礎(chǔ)視覺和語義感知。
這一步使用雙重監(jiān)督策略:
下一Token預(yù)測(NTP):通過大量圖文對(duì)訓(xùn)練模型的感知能力;
下一Patch生成(NPG):利用純圖像數(shù)據(jù),通過擴(kuò)散模型預(yù)測圖像patch,增強(qiáng)空間與語義感知能力。
第二階段:分辨率提升預(yù)訓(xùn)練
逐步提升圖像分辨率:從百萬像素級(jí)別輸入開始,在大量token上進(jìn)行訓(xùn)練,之后升級(jí)到千萬像素級(jí)別進(jìn)行訓(xùn)練。
為進(jìn)一步提升泛化能力,還引入了更豐富的數(shù)據(jù)源,包括OCR場景圖像、grounding數(shù)據(jù)和視頻幀。
VLM預(yù)訓(xùn)練數(shù)據(jù)布局
為增強(qiáng)dots.vlm1的多模態(tài)能力,實(shí)驗(yàn)室將預(yù)訓(xùn)練數(shù)據(jù)劃分為兩個(gè)主要類別:· 第一個(gè)類別:跨模態(tài)互譯數(shù)據(jù)
該類數(shù)據(jù)用于訓(xùn)練模型將圖像內(nèi)容用文本進(jìn)行描述、總結(jié)或重構(gòu),簡單的理解就是Image ? Text互相「翻譯」。
普通圖像+Alt Text或Dense Caption
復(fù)雜圖表、表格、公式、圖形(真實(shí)或合成)+ 結(jié)構(gòu)化注釋或文字;
OCR場景:多語言、場景理解、純文本、文檔解析等;
視頻幀+時(shí)間序列描述;
Grounding監(jiān)督數(shù)據(jù):如邊界框和關(guān)鍵點(diǎn)。
比如Alt Text,就是圖片和圖片旁邊的ALT描述。
Alt Text幫模型快速掌握「通用描述」,Dense Caption則讓模型學(xué)會(huì)「看細(xì)節(jié)、說具體」。
Grounding監(jiān)督數(shù)據(jù)數(shù)據(jù)難以窮盡枚舉,涵蓋各種圖像/視頻與對(duì)應(yīng)文本的組合。
比如Flickr30k Entities數(shù)據(jù)集。
dots.vlm1的目標(biāo)是構(gòu)建一個(gè)全譜系的數(shù)據(jù)分布,覆蓋所有可被人類理解且可轉(zhuǎn)化為離散token序列的視覺信息。
第二個(gè)數(shù)據(jù)類別:跨模態(tài)融合數(shù)據(jù)
第二類數(shù)據(jù)用于訓(xùn)練模型在圖文混合上下文中執(zhí)行下一token(NTP)預(yù)測,避免模型過度依賴單一模態(tài)。
為不同類型的融合數(shù)據(jù)設(shè)計(jì)了專門的清洗管線,以下兩類效果尤為顯著:
網(wǎng)頁數(shù)據(jù)
網(wǎng)頁圖文數(shù)據(jù)多樣性豐富,但視覺與文本對(duì)齊質(zhì)量不佳。
不使用傳統(tǒng)的 CLIP 分?jǐn)?shù)篩選,而是采用內(nèi)部自研的VLM模型進(jìn)行重寫和清洗,剔除低質(zhì)量圖像和弱相關(guān)文本。
PDF 數(shù)據(jù)
PDF內(nèi)容質(zhì)量普遍較高。
為充分利用這類數(shù)據(jù),小紅書Hi Lab開發(fā)了專用解析模型dots.ocr,將PDF文檔轉(zhuǎn)化為圖文交錯(cuò)表示。
dots.ocr此前已經(jīng)在HuggingFace開源,達(dá)到了該領(lǐng)域SOTA水平。
同時(shí)還將整頁P(yáng)DF渲染為圖像,并隨機(jī)遮擋部分文本區(qū)域,引導(dǎo)模型結(jié)合版面與上下文預(yù)測被遮擋內(nèi)容,從而增強(qiáng)其理解視覺格式文檔的能力。
那么問題來了,作為一個(gè)內(nèi)容分享平臺(tái),面對(duì)已經(jīng)很卷的AI大模型行業(yè),為何小紅書還要下場自研多模態(tài)大模型?
多模態(tài)成為通向AGI的必經(jīng)之路
從4月份OpenA的GPT-4o「原生全能多模態(tài)模型」引發(fā)的「吉卜力熱」就能看出,單純的文本還是不如多模態(tài)大模型。
吉卜力風(fēng)格圖片和Sora社區(qū)的圖片
多模態(tài)AI這一能力之所以重要,在于它模擬了人類利用多種感官綜合感知世界的方式,可形成更全面、細(xì)致的理解。
通過將不同模態(tài)的信息優(yōu)勢結(jié)合,AI系統(tǒng)能夠?qū)?fù)雜場景作出更整體化的判斷。
特斯拉機(jī)器人賣爆米花
而集成視覺、文本等能力的視覺語言模型(VLM)正成為企業(yè)側(cè)升級(jí)的主戰(zhàn)場。
不論是自動(dòng)駕駛還是具身智能,都需要VLM作為機(jī)器人的眼睛,甚至是大腦,來幫助它們理解和融入人類社會(huì)。
VLM模型的用例
與此同時(shí),李飛飛的「世界模型」、谷歌剛剛發(fā)布的Genie3等3D世界生成技術(shù)與具身智能把多模態(tài)推向更高維度。
谷歌剛剛發(fā)布的Genie 3
不僅僅是理解和生成內(nèi)容,還要模擬真實(shí)物理世界和自主演化,這樣才能孕育出更自然的人機(jī)交互形態(tài)。
在生成圖片和視頻外,谷歌的NotebookLM可以根據(jù)文本生成對(duì)話式的播客,專攻音頻領(lǐng)域。
其中,文生圖模型和視覺語言模型是多模態(tài)AI中兩個(gè)緊密相關(guān)但目標(biāo)不同的分支。
前者側(cè)重生成圖像,后者側(cè)重理解圖像并輸出文字。
文生圖模型依然是產(chǎn)業(yè)熱點(diǎn),像Midjourney、Sora等,廣泛應(yīng)用于創(chuàng)意、內(nèi)容生成和廣告等場景。
VLM在理解和推理方面發(fā)揮越來越重要的作用,尤其是現(xiàn)在的具身智能和智能駕駛等領(lǐng)域需求強(qiáng)烈。
但是行業(yè)越來越開始模糊二者的界限,文生圖、VLM都開始變?yōu)椤溉诤稀筂LLM(Multimadol LLM)。
像即將發(fā)布的GPT-5、谷歌的Gemini 2.5 Pro都是「全能」模型。
盡管側(cè)重點(diǎn)不同,文生圖模型和VLM在本質(zhì)上都要求模型學(xué)習(xí)到視覺和語言之間的關(guān)聯(lián)。
小紅書優(yōu)先推出VLM,而不是文生圖模型,我猜測是因?yàn)槲纳鷪D模型的使用場景更多是在「輔助創(chuàng)作」,而VLM則更多側(cè)重在「讓AI更懂人」。
從小紅書以往在AI上的動(dòng)作可以看出,這個(gè)崇尚UGC(普通人生產(chǎn)內(nèi)容)的社區(qū)在AIGC上的姿態(tài)并不激進(jìn),仍然在思考 AI 輔助創(chuàng)作對(duì)內(nèi)容真實(shí)、真人感的影響。
但在「讓AI更懂人」這件事上,小紅書似乎有更大的動(dòng)力去投入研發(fā)。
畢竟小紅書目前的月活已超過3.5億,每天都有用戶生成海量的圖文內(nèi)容,如何更好地理解這些內(nèi)容,進(jìn)行更精準(zhǔn)的個(gè)性化推薦,大模型能起到不小的作用。
同時(shí),未來AI如何參與到社區(qū)的交互中,會(huì)是個(gè)值得長期探索的問題。
小紅書在技術(shù)自研上的決心也較以往更大。
除了去年自建云之外,最近有個(gè)小道消息很多人忽略了——小紅書8月中旬將切換在線辦公軟件,從企業(yè)微信全面遷移到自研的redcity。
當(dāng)時(shí)一些同學(xué)認(rèn)為,「自研IM」是獨(dú)角獸到一線大廠的必經(jīng)之路,這是一種明確的戰(zhàn)略轉(zhuǎn)向。
所以,小紅書下場自研大模型也是非常說得通了,甚至可以說是一種必然。
小紅書追求的多元智能
不論是兩個(gè)月前開源的dots.llm1,上周開源的dots.ocr,還是最新發(fā)布的dots.vlm1,可以看到小紅書人文智能實(shí)驗(yàn)室已經(jīng)打定主意自己搞自己的大模型了。
dots模型家族也在不斷壯大。
另一個(gè)值得注意的點(diǎn)就是,此次dots.vlm1是基于DeepSeek V3的,而不是他們自己的dots.llm1。
可以推測,這在小紅書內(nèi)部立項(xiàng)時(shí),應(yīng)該是同時(shí)并行開始的,可能vlm訓(xùn)練更復(fù)雜,所以稍慢一些。
但說明小紅書一開始就想到要做自研的多模態(tài)大模型了。未來不排除dots的多模態(tài)模型會(huì)基于dots的文本模型訓(xùn)練。
也許小紅書會(huì)把這次VLM當(dāng)作「理解底座」,先把「看懂用戶、看懂內(nèi)容」做到極致,再漸進(jìn)式開發(fā)后續(xù)的圖生圖、視頻生成等創(chuàng)作能力。
也許這些模型能力未來會(huì)和小紅書的應(yīng)用產(chǎn)品做更好的結(jié)合,來自證「模應(yīng)一體」的預(yù)言。
今年年初,小紅書hi lab就開始招募「AI人文訓(xùn)練師」團(tuán)隊(duì),幫助AI更好地進(jìn)行后訓(xùn)練。
「AI人文訓(xùn)練師」的團(tuán)隊(duì)人員背景非常多元,包括哲學(xué)、文學(xué)、政治學(xué)、人類學(xué)、歷史、電影藝術(shù)等。這些「文科專業(yè)」某種程度上也折射出小紅書對(duì)于多模態(tài)的一種深度理解。
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!