亚洲欧美日韩综合一区二区,av成人,综合色就爱涩涩涩综合婷婷

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

李飛飛對話 a16z：LLM 是有損壓縮，世界模型才是真正重要方向，應(yīng)用遠超機器人

有新Newin

2025-06-06

0 評論 1308 瀏覽 0 收藏

10 分鐘

近日，李飛飛與 a16z 合伙人展開了一場深度對話，首次公開分享了創(chuàng)辦 World Labs 的理念、研究方向與宏大愿景。她指出，語言是一種“有損壓縮”的認(rèn)知方式，而世界模型才是 AI 真正理解并構(gòu)建世界的關(guān)鍵?？臻g智能的應(yīng)用遠超機器人，將為工業(yè)設(shè)計、電影制作、建筑構(gòu)圖、游戲開發(fā)等領(lǐng)域帶來前所未有的變革。

World Labs 是由著名 AI 專家、斯坦福大學(xué)教授李飛飛于 2024 年創(chuàng)辦的初創(chuàng)公司，致力于開發(fā)具備“空間智能”的下一代 AI 系統(tǒng)。

自成立以來，World Labs 已完成兩輪融資，總計籌集資金約 2.3 億美元。主要投資者包括 a16z、Radical Ventures、NEA、英偉達 NVentures、AMD Ventures 和 Intel Capital 等。公司估值在短短三個月內(nèi)突破 10 億美元，成為 AI 領(lǐng)域的新晉獨角獸。

近日，李飛飛與 a16z 兩位合伙人 Martin Casado 以及 ?Eric Torenberg 展開了一場對話，她首次公開講述了他們共同創(chuàng)辦 World Labs 背后的理念構(gòu)建、研究方向與宏大愿景a16z 平臺戰(zhàn)略前世今生：從 VC “不愿擦屁股”到“全棧服務(wù)”。

李飛飛一開始就點出了本場對話的核心觀點：“我不需要大語言模型來說服我，世界模型才是那個真正重要的方向?！?/p>

她強調(diào)，空間智能——無論是我們生活在其中的三維物理世界，還是想象中的數(shù)字宇宙——都是智能不可或缺的組成部分。而今天，我們終于具備了生成與重建這些宇宙的能力。

比語言更古老的智能：空間感知與三維重建

李飛飛指出，相比于語言，空間感知才是人類進化過程中更為古老而本能的能力。她分享了一段親身經(jīng)歷：數(shù)年前因角膜受傷導(dǎo)致短暫喪失立體視覺，在那段時間里，她不敢獨自駕車，哪怕是熟悉的街道，也難以判斷與旁車的距離。

這個實驗性的體驗讓她深刻認(rèn)識到三維感知系統(tǒng)在人類行動中的基礎(chǔ)作用。而對 AI 而言，如果無法建立三維世界模型，就無法真正理解、操作或重建現(xiàn)實世界。

Martin Casado 補充說，這種三維智能的缺失，正是機器人和具身智能系統(tǒng)遲遲難以落地的關(guān)鍵原因。他用一個通俗的例子解釋：如果你帶著一個人走進一個陌生房間，蒙上他雙眼，只靠語言來描述這個空間，再讓他完成任務(wù)——幾乎不可能。而一旦睜開眼睛，大腦就能自動重建空間模型并完成行動。這種重建能力，是當(dāng)前主流語言模型所完全不具備的。

從 NeRF 到世界模型的技術(shù)臨界點

談及為何此時選擇創(chuàng)辦 World Labs，李飛飛認(rèn)為，這是長期學(xué)術(shù)研究與產(chǎn)業(yè)基礎(chǔ)積累的結(jié)果。

她回顧道，早在四年前，一項名為 NeRF（神經(jīng)輻射場）的研究突破，已為三維視覺建模打開了全新通路。而 NeRF 的提出者，正是現(xiàn)任 World Labs 聯(lián)合創(chuàng)始人之一 Ben Mildenhall。

而另一位創(chuàng)始人 Christopher 則在高效三維表示方面進行了開創(chuàng)性研究，推動了 volumetric 3D 建模在工業(yè)界的回歸。

再加上早期將 GAN 技術(shù)應(yīng)用于圖像風(fēng)格遷移的 Justin Johnson，這些零散的研究成果如今得以整合在同一團隊之中，圍繞一個“北極星級”的目標(biāo)：構(gòu)建 AI 的世界模型能力。

Martin 將這一目標(biāo)歸結(jié)為兩個系統(tǒng)的深度融合：一是 AI 模型、數(shù)據(jù)與架構(gòu)本身，二是圖形渲染與空間重建的工程體系。能讓這樣兩個世界的專家在一個平臺上高效協(xié)作，本身就是技術(shù)產(chǎn)業(yè)的一次重要組織創(chuàng)新。

語言模型不是終點，而是序章

李飛飛強調(diào)，她對世界模型的信仰并非來自對 LLM 的失望，而是對智能本質(zhì)的更進一步理解。

她指出，語言是一種“有損壓縮”的認(rèn)知方式，它抽象了世界，卻也失去了豐富的物理與感知信息。真正的現(xiàn)實世界，沒有單詞、語法和文本，只有物理、運動與三維結(jié)構(gòu)。

這種看法也改變了她對 AI 公司應(yīng)有形態(tài)的認(rèn)知。從斯坦福教授轉(zhuǎn)向創(chuàng)業(yè)者，是因為她意識到，要實現(xiàn)對空間智能的建模，僅靠學(xué)術(shù)研究遠遠不夠——需要工業(yè)化的算力投入、系統(tǒng)級的架構(gòu)調(diào)度與頂級跨界人才的協(xié)作能力。

而這一切，只有在一家組織化程度極高、全棧工程協(xié)同能力突出的公司中，才能真正落地。

空間智能應(yīng)用遠超機器人

對大多數(shù)人而言，“世界模型”仍是抽象的科研術(shù)語。但李飛飛與 Martin 共同指出，它的應(yīng)用遠超自動駕駛與機器人。

創(chuàng)造力，本質(zhì)上就是視覺性的。工業(yè)設(shè)計、電影制作、建筑構(gòu)圖，甚至游戲開發(fā)，全部依賴于三維構(gòu)建與操控。而如果 AI 擁有世界模型能力，它不僅能“看懂”三維世界，還能“生成”并“操作”虛擬空間。

Martin 描述道，只需一張桌子的照片，模型就能推斷出背后的形態(tài)與材質(zhì)，進而構(gòu)建完整空間場景。在此基礎(chǔ)上，用戶甚至可以對空間進行測量、添加、刪除或重新設(shè)計。這是一種比文字指令更為直覺和自由的人機交互方式，也為設(shè)計、創(chuàng)作與模擬實驗打開了全新維度。

李飛飛進一步提出，數(shù)字空間正帶來一個從未有過的變革機會：“人類迄今為止都只活在一個三維物理世界中。但數(shù)字世界，將首次讓我們進入‘多重宇宙’?！?/p>

她列舉了幾個例子：有的宇宙專為機器人而建，有的宇宙服務(wù)于人類創(chuàng)意，有的用于講述、交流與體驗旅行。這些曾只存在于想象中的空間，如今將真正被生成出來，并被機器理解、使用、改造。▍基礎(chǔ)模型下一戰(zhàn)，三維全景建模

回到技術(shù)本身，李飛飛強調(diào)，World Labs 不只是要造一個“會看”的 AI，而是要讓 AI 理解世界的三維結(jié)構(gòu)、動力學(xué)與組合邏輯。這不只是更難的工程問題，也是一種全新的表示哲學(xué)。

她認(rèn)為，像 DNA 的雙螺旋結(jié)構(gòu)、巴基球等科學(xué)發(fā)現(xiàn)，都是空間智能的結(jié)晶。純靠語言，不可能推導(dǎo)出這類幾何構(gòu)造。而這也是為何世界模型不僅能提升機器的理解能力，更可能為人類的科學(xué)與藝術(shù)打開新的創(chuàng)作路徑。

Martin 總結(jié)說，LLM 帶來的革命證明了一個事實：當(dāng)我們找對了數(shù)據(jù)結(jié)構(gòu)和模型表示方式，AI 的能力提升會呈指數(shù)級爆發(fā)?，F(xiàn)在，他們相信“世界模型”正站在類似的臨界點上。