李飛飛對話 a16z:LLM 是有損壓縮,世界模型才是真正重要方向,應(yīng)用遠超機器人
近日,李飛飛與 a16z 合伙人展開了一場深度對話,首次公開分享了創(chuàng)辦 World Labs 的理念、研究方向與宏大愿景。她指出,語言是一種“有損壓縮”的認(rèn)知方式,而世界模型才是 AI 真正理解并構(gòu)建世界的關(guān)鍵??臻g智能的應(yīng)用遠超機器人,將為工業(yè)設(shè)計、電影制作、建筑構(gòu)圖、游戲開發(fā)等領(lǐng)域帶來前所未有的變革。
World Labs 是由著名 AI 專家、斯坦福大學(xué)教授李飛飛于 2024 年創(chuàng)辦的初創(chuàng)公司,致力于開發(fā)具備“空間智能”的下一代 AI 系統(tǒng)。
自成立以來,World Labs 已完成兩輪融資,總計籌集資金約 2.3 億美元。主要投資者包括 a16z、Radical Ventures、NEA、英偉達 NVentures、AMD Ventures 和 Intel Capital 等 。公司估值在短短三個月內(nèi)突破 10 億美元,成為 AI 領(lǐng)域的新晉獨角獸 。
近日,李飛飛與 a16z 兩位合伙人 Martin Casado 以及 ?Eric Torenberg 展開了一場對話,她首次公開講述了他們共同創(chuàng)辦 World Labs 背后的理念構(gòu)建、研究方向與宏大愿景a16z 平臺戰(zhàn)略前世今生:從 VC “不愿擦屁股”到“全棧服務(wù)”。
李飛飛一開始就點出了本場對話的核心觀點:“我不需要大語言模型來說服我,世界模型才是那個真正重要的方向?!?/p>
她強調(diào),空間智能——無論是我們生活在其中的三維物理世界,還是想象中的數(shù)字宇宙——都是智能不可或缺的組成部分。而今天,我們終于具備了生成與重建這些宇宙的能力。
比語言更古老的智能:空間感知與三維重建
李飛飛指出,相比于語言,空間感知才是人類進化過程中更為古老而本能的能力。她分享了一段親身經(jīng)歷:數(shù)年前因角膜受傷導(dǎo)致短暫喪失立體視覺,在那段時間里,她不敢獨自駕車,哪怕是熟悉的街道,也難以判斷與旁車的距離。
這個實驗性的體驗讓她深刻認(rèn)識到三維感知系統(tǒng)在人類行動中的基礎(chǔ)作用。而對 AI 而言,如果無法建立三維世界模型,就無法真正理解、操作或重建現(xiàn)實世界。
Martin Casado 補充說,這種三維智能的缺失,正是機器人和具身智能系統(tǒng)遲遲難以落地的關(guān)鍵原因。他用一個通俗的例子解釋:如果你帶著一個人走進一個陌生房間,蒙上他雙眼,只靠語言來描述這個空間,再讓他完成任務(wù)——幾乎不可能。而一旦睜開眼睛,大腦就能自動重建空間模型并完成行動。這種重建能力,是當(dāng)前主流語言模型所完全不具備的。
從 NeRF 到世界模型的技術(shù)臨界點
談及為何此時選擇創(chuàng)辦 World Labs,李飛飛認(rèn)為,這是長期學(xué)術(shù)研究與產(chǎn)業(yè)基礎(chǔ)積累的結(jié)果。
她回顧道,早在四年前,一項名為 NeRF(神經(jīng)輻射場)的研究突破,已為三維視覺建模打開了全新通路。而 NeRF 的提出者,正是現(xiàn)任 World Labs 聯(lián)合創(chuàng)始人之一 Ben Mildenhall。
而另一位創(chuàng)始人 Christopher 則在高效三維表示方面進行了開創(chuàng)性研究,推動了 volumetric 3D 建模在工業(yè)界的回歸。
再加上早期將 GAN 技術(shù)應(yīng)用于圖像風(fēng)格遷移的 Justin Johnson,這些零散的研究成果如今得以整合在同一團隊之中,圍繞一個“北極星級”的目標(biāo):構(gòu)建 AI 的世界模型能力。
Martin 將這一目標(biāo)歸結(jié)為兩個系統(tǒng)的深度融合:一是 AI 模型、數(shù)據(jù)與架構(gòu)本身,二是圖形渲染與空間重建的工程體系。能讓這樣兩個世界的專家在一個平臺上高效協(xié)作,本身就是技術(shù)產(chǎn)業(yè)的一次重要組織創(chuàng)新。
語言模型不是終點,而是序章
李飛飛強調(diào),她對世界模型的信仰并非來自對 LLM 的失望,而是對智能本質(zhì)的更進一步理解。
她指出,語言是一種“有損壓縮”的認(rèn)知方式,它抽象了世界,卻也失去了豐富的物理與感知信息。真正的現(xiàn)實世界,沒有單詞、語法和文本,只有物理、運動與三維結(jié)構(gòu)。
這種看法也改變了她對 AI 公司應(yīng)有形態(tài)的認(rèn)知。從斯坦福教授轉(zhuǎn)向創(chuàng)業(yè)者,是因為她意識到,要實現(xiàn)對空間智能的建模,僅靠學(xué)術(shù)研究遠遠不夠——需要工業(yè)化的算力投入、系統(tǒng)級的架構(gòu)調(diào)度與頂級跨界人才的協(xié)作能力。
而這一切,只有在一家組織化程度極高、全棧工程協(xié)同能力突出的公司中,才能真正落地。
空間智能應(yīng)用遠超機器人
對大多數(shù)人而言,“世界模型”仍是抽象的科研術(shù)語。但李飛飛與 Martin 共同指出,它的應(yīng)用遠超自動駕駛與機器人。
創(chuàng)造力,本質(zhì)上就是視覺性的。工業(yè)設(shè)計、電影制作、建筑構(gòu)圖,甚至游戲開發(fā),全部依賴于三維構(gòu)建與操控。而如果 AI 擁有世界模型能力,它不僅能“看懂”三維世界,還能“生成”并“操作”虛擬空間。
Martin 描述道,只需一張桌子的照片,模型就能推斷出背后的形態(tài)與材質(zhì),進而構(gòu)建完整空間場景。在此基礎(chǔ)上,用戶甚至可以對空間進行測量、添加、刪除或重新設(shè)計。這是一種比文字指令更為直覺和自由的人機交互方式,也為設(shè)計、創(chuàng)作與模擬實驗打開了全新維度。
李飛飛進一步提出,數(shù)字空間正帶來一個從未有過的變革機會:“人類迄今為止都只活在一個三維物理世界中。但數(shù)字世界,將首次讓我們進入‘多重宇宙’?!?/p>
她列舉了幾個例子:有的宇宙專為機器人而建,有的宇宙服務(wù)于人類創(chuàng)意,有的用于講述、交流與體驗旅行。這些曾只存在于想象中的空間,如今將真正被生成出來,并被機器理解、使用、改造。▍基礎(chǔ)模型下一戰(zhàn),三維全景建模
回到技術(shù)本身,李飛飛強調(diào),World Labs 不只是要造一個“會看”的 AI,而是要讓 AI 理解世界的三維結(jié)構(gòu)、動力學(xué)與組合邏輯。這不只是更難的工程問題,也是一種全新的表示哲學(xué)。
她認(rèn)為,像 DNA 的雙螺旋結(jié)構(gòu)、巴基球等科學(xué)發(fā)現(xiàn),都是空間智能的結(jié)晶。純靠語言,不可能推導(dǎo)出這類幾何構(gòu)造。而這也是為何世界模型不僅能提升機器的理解能力,更可能為人類的科學(xué)與藝術(shù)打開新的創(chuàng)作路徑。
Martin 總結(jié)說,LLM 帶來的革命證明了一個事實:當(dāng)我們找對了數(shù)據(jù)結(jié)構(gòu)和模型表示方式,AI 的能力提升會呈指數(shù)級爆發(fā)?,F(xiàn)在,他們相信“世界模型”正站在類似的臨界點上。
理解并構(gòu)建世界的鑰匙
“我們其實正在倒著走進化之路。”Martin 提出這個觀點時,整個對話也走到了哲學(xué)層面。
語言是人類大腦進化中最晚出現(xiàn)的模塊之一,而空間感知系統(tǒng)則自節(jié)肢動物以來就存在,至今已有五億年。今天的 AI,如果只是“學(xué)會語言”,并不能真正稱之為“理解世界”。而只有構(gòu)建出類人空間模型,AI 才算真正踏入“具身智能”的大門。
李飛飛以一貫的堅定口吻總結(jié)道:“我一直在等這一天。不是因為我不信語言模型,而是我深知:真正的世界,不是文本構(gòu)成的。”
而世界模型,就是讓 AI 真正理解并構(gòu)建這個世界的鑰匙。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!