為什么Sora不能成為世界模型?
盡管Sora能夠生成逼真的視頻畫面,它是否真的能夠成為理解世界、模擬物理規(guī)則的“世界模型”?本文將深入探討Sora的技術(shù)原理、其在物理規(guī)則理解和因果關(guān)系推理上的局限性,供大家參考。
寫完一篇空間智能文章,發(fā)到群里,聊它如何用虛擬空間數(shù)據(jù)訓(xùn)練機器人,幫人類理解世界。
結(jié)果有朋友提出個問題:
文生視頻算不算空間智能?它也能生成虛擬場景,為什么不是最佳途徑?
這問題挺有意思,我第一反應(yīng)就想到了Sora。
文生視頻“新星”崛起速度太快,幾句話能生成一個視頻,兩年內(nèi)字節(jié)、騰訊、甚至其他模型廠商紛紛壓住該賽道。
不過,兩年過去,有人發(fā)現(xiàn)它沒那么完美,生成人像總帶著“恐怖谷”的詭異,連Facebook首席人工智能科學(xué)家Yann LeCun也點評說:Sora不過是畫得好看,壓根不懂物理規(guī)律。
于是,我?guī)е蓡栄芯苛艘幌拢嚎此茝姶蟮腟ora,為什么不能成為真正的世界模擬器?它和空間智能的差距到底在哪?
01
愛因斯坦有句經(jīng)典的名言:
“如果不能簡單地解釋一件事,那就說明還沒有真正理解它?!保↖f you can’t explain it simply, you don’t understand it well enough.)
所以,想深入探究,就必須從深層次技術(shù)原理出發(fā)。
Sora的核心是“擴散模型”(Diffusion Model);從一堆隨機噪點開始,通過AI一步步去掉雜亂,最終生成清晰的畫面,再將這些畫面串聯(lián)成視頻,聽起來像魔法,其實背后是數(shù)學(xué)原理在支撐。
另外,它還有個幫手是“Transformer”,這個詞不少人聽說過。什么意思呢?它擅長處理序列數(shù)據(jù),把零散的信息連成一條線。在Sora中,它將文字指令拆解,再把一幀幀畫面串聯(lián)成流暢的動作。
舉個例子:
如果你輸入“船在咖啡杯里航行”,Sora會先理解“船”和“咖啡杯”,然后,把船、水波蕩漾、船身傾斜這些相關(guān)的詞匯、場景串聯(lián)起來。
這背后依賴海量視頻數(shù)據(jù)和強大的算力,才能在幾秒鐘內(nèi)生成幾十秒的畫面。
可是,你有沒想過,僅僅依賴數(shù)據(jù)堆砌出來的結(jié)果,真的能理解物理世界嗎?答案是不會。問題就出在架構(gòu)上。
擴散模型擅長從數(shù)據(jù)中學(xué)習(xí)像素規(guī)律,預(yù)測下一步畫面應(yīng)該是什么樣子;Transformer則能讓幀與幀銜接得天衣無縫。所以從視覺上看,Sora很“聰明”,能夠模仿真實視頻的連續(xù)感,但仔細一想,問題就來了。
船怎么可能塞進杯子?我試過輸入「貓?zhí)阶郎稀?,畫面流暢得沒話說,結(jié)果貓腿直接穿過了桌面,就像游戲里的穿模。為什么會這樣?
因為Sora的生成邏輯是“畫得好看”,而不是“畫得對”。
它不懂重力如何讓腳落地,也不懂桌子為何會擋住貓腿,生成“恐怖谷”人像時,更一目了然,臉部細節(jié)一放大就崩了,它只知道靠像素預(yù)測,卻沒有考慮現(xiàn)實規(guī)則。
所以,Sora的強項和弱點是一枚硬幣的兩面。
視覺流暢是它的本事,不合理也是它的命門。正如Yann LeCun所說,它“不懂蘋果為何落地”,我覺得這個觀點很對:Sora的架構(gòu)根本就沒想去理解物理世界,只是想把畫面糊弄得像真的。
既然Sora不懂物理世界,那它能否成為世界模擬器呢?
我認為有點懸。為什么?
世界模擬器是一個能夠運行物理規(guī)則的虛擬環(huán)境,幫助機器人學(xué)習(xí)現(xiàn)實中的因果關(guān)系,但Sora生成的視頻雖然看起來像回事,卻毫無真實性。
你想想看,“船在杯子里”這樣的視頻去怎么去教機器人,機器人可能會以為杯子能裝下萬噸巨輪,這根本沒好用。
因此,擴散模型和Transformer的目標是視覺生成,而不是物理模擬,Sora更像一個藝術(shù)工具,追求“好看”的畫面,而不是“對”的世界,這讓我覺得Sora局限性在于其架構(gòu)沒有對準目標。
02
既然這樣問題來了:世界模擬器要具備哪些關(guān)鍵特性?
我覺得最基礎(chǔ)的有三點:
- 得知道現(xiàn)實物品規(guī)則是什么樣,搬到虛擬場景中,不能差太多;
- 理解物品與物品之間怎么相互影響的;
- 還得能把不同物品整合到一起,相互推理。
這么說,有點抽象,我舉個例子:
你在教一個機器人怎么拿東西,世界模擬器里面的“虛擬杯子”,得模仿出真實杯子的重量、材質(zhì)、形狀,這樣機器人才知道該用多大的力氣去抓。
模擬器把重力以各指標模仿的不準確,機器人就會抓得太緊或者太松,東西就會掉下來,甚至還會被弄壞。
再聊聊智能交通。
現(xiàn)實中,堵車是個大難題。要解決它,得靠算法、數(shù)據(jù)分析,比如錯峰出行。
假設(shè)有個世界模擬器,如果它沒法模擬紅綠燈時長、車輛速度,就無法預(yù)測哪里會堵車、什么時候堵,也做不了錯峰規(guī)劃。
同樣,如果模擬器不清楚車輛摩擦力,就判斷不了車子能不能在綠燈時順利起步或紅燈時及時停下;如果搞不清車輛之間的相互影響,交通就會亂套,甚至可能出事故。
所以,世界模擬器的作用,是把復(fù)雜的物理規(guī)則和物體之間的關(guān)系都搞清楚,這樣才能讓機器人、智能交通這些高科技的東西更好地工作。
對比來看,Sora在關(guān)鍵特性上明顯不足。它在視覺生成方面做得很棒,但沒辦法滿足世界模擬器對物理規(guī)則和因果關(guān)系推理的要求。
這種問題不只出現(xiàn)在Sora上,一些國產(chǎn)大模型也有類似架構(gòu)缺陷。我刷抖音時經(jīng)??吹接腥擞脠D生視頻模型,結(jié)果人突然變成狗,看起來很搞笑,但明顯不符合現(xiàn)實邏輯。
原因很簡單,架構(gòu)無法為世界模擬器提供真實的物理理解能力,因此,在具身智能或其他領(lǐng)域的應(yīng)用就會受到很大限制。
可以得出一個結(jié)論:世界模型和文生視頻的架構(gòu)完全不一樣。世界模型要模擬真實世界,必須懂物理規(guī)律和現(xiàn)實邏輯;文生視頻主要生成畫面,在邏輯和真實性上沒那么嚴格。
03
我認為,相比之下,真正值得關(guān)注的,是更注重物理規(guī)則建模和具備因果關(guān)系推理方向的模型。比如:李飛飛的World Labs、黃仁勛的世界模型(Cosmos WFMs),以及群核科技的空間智能。
為什么拿他們舉例呢?有三點:
先看目標,黃仁勛提出的 Cosmos WFMs(世界模型)是希望打造一個能模擬真實世界的「虛擬大腦」。這個大腦要懂物理規(guī)則,要知道物體怎么動、力怎么作用,還要明白事情的前因后果。
李飛飛的 World Labs 目標是讓人工智能真正理解世界。它通過模擬物理規(guī)則、因果關(guān)系和復(fù)雜場景,讓AI不僅能“看到”,還能“理解”世界。
比如:一個AI產(chǎn)品可以在虛擬場景中預(yù)測事情的發(fā)展,或根據(jù)不同情況做出合理決策。這種能力對提升機器人、自動駕駛等領(lǐng)域的智能化至關(guān)重要。
群核科技的空間智能,目標是希望把真實世界搬到數(shù)字世界里,讓AI能看懂、能用,然后用數(shù)據(jù)幫助家居設(shè)計、建筑規(guī)劃、以及AR、VR這些領(lǐng)域,幫行業(yè)更高效的干活。
說得直白點,是希望打造一個“數(shù)字孿生”的世界,讓人、AI、空間里面思考和行動,解決實際問題。
既然有了目標,再看看三家技術(shù)實現(xiàn)路徑。
Cosmos WFMs 的技術(shù)實現(xiàn)路徑是通過構(gòu)建生成式世界基礎(chǔ)模型(WFMs),結(jié)合高級分詞器、安全護欄和加速視頻處理管道等關(guān)鍵技術(shù),為開發(fā)者提供高效的開發(fā)工具。
具體來說,它利用NVIDIA NeMo對基礎(chǔ)模型進行調(diào)優(yōu),并通過 GitHub 和 Hugging Face 提供開源支持,幫助開發(fā)者生成高仿真的物理數(shù)據(jù)。
此外,Cosmos 還專注于多視角視頻生成、路徑規(guī)劃、避障等任務(wù),進一步提升物理AI在機器人、自動駕駛等領(lǐng)域的應(yīng)用能力。
報告里面的東西是不是很難懂?
通俗的說:他們做的這套系統(tǒng),能讓AI學(xué)會像人一樣看路、規(guī)劃路線、避開障礙物,還能生成各種角度的視頻,特別適合用在機器人和自動駕駛這些領(lǐng)域。
李飛飛的World Labs的技術(shù)實現(xiàn)路徑是,開發(fā)一種從2D到3D的智能轉(zhuǎn)化技術(shù),讓AI不僅能看懂平面圖片,還能生成完整的三維空間。
他們的系統(tǒng)從一張普通照片出發(fā),估算出場景的3D結(jié)構(gòu),然后補全圖片中看不到的部分,最終生成一個用戶可以自由探索和互動的虛擬世界。
簡單講,用AI把平面圖像變成立體空間,讓人像在真實世界一樣能走進去、四處看看。這種技術(shù)對機器人導(dǎo)航、虛擬現(xiàn)實等領(lǐng)域特別有用,因為它們都要“空間智能”來理解和應(yīng)對復(fù)雜的3D環(huán)境。
群核科技搞空間智能,簡單來說:
1萬臺GPU服務(wù)器,用計算能力幫家居和建筑行業(yè)快速做出大量3D模型,順便攢了一堆2D和3D的設(shè)計數(shù)據(jù);把數(shù)據(jù)整合到一個平臺上,能生成特別逼真的虛擬場景。
最后,企業(yè)可以用這個平臺來訓(xùn)練機器人,比如:掃地機器人或者自動駕駛設(shè)備,讓它們在虛擬世界里模擬真實環(huán)境,學(xué)會怎么動、怎么避障,變得更聰明。
因此,無論黃仁勛的Cosmos WFMs、李飛飛的World Labs,還是群核科技的空間智能,技術(shù)核心目標是通過模擬真實世界的物理規(guī)則和因果關(guān)系,讓AI在空間內(nèi)訓(xùn)練更聰明、更能解決實際問題。
04
我認為,要實現(xiàn)這一目標,離不開一個關(guān)鍵因素:高質(zhì)量數(shù)據(jù)。數(shù)據(jù)是構(gòu)建世界模型和空間智能的基礎(chǔ),可它也是發(fā)展里最大的「攔路虎」。
為什么?
我們說具身智能有點抽象,換一個更具體的詞:“虛擬訓(xùn)練”。虛擬訓(xùn)練有兩個重要方面:
一個是生成式的海量數(shù)據(jù)。就像GPT這樣的文字模型,靠超大規(guī)模的數(shù)據(jù)和強大的算力來學(xué)習(xí)和推理;另一個是真實數(shù)據(jù)。枕頭的大小、重量、材質(zhì),或者光線怎么反射、物體怎么碰撞,這些是物理交互場景。
這種真實數(shù)據(jù)來源于現(xiàn)實世界,直接決定虛擬訓(xùn)練能否模擬出符合實際邏輯的行為和反應(yīng);
換句話說,虛擬訓(xùn)練要兩種數(shù)據(jù):一種是“虛擬生成”的大數(shù)據(jù),另一種是“真實場景”的物理數(shù)據(jù),而后者,往往成為發(fā)展的瓶頸。
原因很簡單:文生視頻、文生圖等生成式技術(shù)雖然能生成豐富的內(nèi)容,但很難直接獲取真實的物理規(guī)則和精確的交互細節(jié)。
比如,文生視頻可以生成一個“滾動的球”,但它可能無法準確模擬球在不同材質(zhì)地面上的摩擦力、彈跳高度或碰撞反應(yīng)。
那真實場景的數(shù)據(jù)從哪兒來呢?只能從真實世界里來。
通過傳感器、攝像頭、激光雷達等設(shè)備,從現(xiàn)實環(huán)境中采集;你開車時,傳感器會記錄車輛的運動軌跡、力度變化、光線反射,還有車輛間距、行人行為,甚至天氣對路況的影響。這些信息會被上傳到平臺,用來分析和訓(xùn)練。
但有了數(shù)據(jù)還不夠。
平臺的數(shù)據(jù)不能保證下一次操作一定精準,還得在虛擬環(huán)境里進行大量訓(xùn)練;自動駕駛汽車,要在虛擬環(huán)境里反復(fù)模擬行駛,可能要跑成千上萬次,直到能應(yīng)對各種復(fù)雜場景,才能用到現(xiàn)實世界里。
明白這些,你也就明白了,這不僅是自動駕駛、機器人領(lǐng)域的問題,其他行業(yè)也一樣。
不管醫(yī)療、制造還是農(nóng)業(yè),世界模型和空間智能都需要海量的真實數(shù)據(jù)來支撐,并且要通過虛擬環(huán)境的反復(fù)訓(xùn)練來驗證和優(yōu)化能力。
換句話說,無論是自動駕駛、機器人導(dǎo)航,還是其他行業(yè)的具身智能應(yīng)用,核心挑戰(zhàn)都在于如何獲取高質(zhì)量的真實數(shù)據(jù),再通過虛擬和現(xiàn)實的結(jié)合,讓AI真正能解決實際問題;這才是未來技術(shù)落地的關(guān)鍵。
誰有底層架構(gòu)、誰有數(shù)據(jù),誰才有上牌桌的機會。
本文由人人都是產(chǎn)品經(jīng)理作者【王智遠】,微信公眾號:【王智遠】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Sora生成視頻截圖
- 目前還沒評論,等你發(fā)揮!