更接近AGI的世界模型,Genie 3重構(gòu)游戲與XR虛擬世界

1 評論 1059 瀏覽 0 收藏 13 分鐘

本文帶你拆解這場“造夢工具”的進(jìn)化史:技術(shù)邊界在哪?距離VR殺手級應(yīng)用還有幾步?開發(fā)者如何零成本上車?打開文章,搶先看見下一個萬億美元賽道的入口。

“如果(AI)生成的視頻不僅能看,還能探索呢?”

谷歌DeepMind于8月5日發(fā)布了一個全新AI模型Genie 3,他們在社交媒體上發(fā)布的演示視頻引發(fā)人們對AI世界模型廣泛討論。

具體來說,Genie 3是AI世界建模系統(tǒng),它最大的亮點(diǎn)在于其可以根據(jù)簡短文本提示實(shí)時生成可探索和編輯的3D虛擬場景。該模型支持24幀實(shí)時流傳輸,可記憶1分鐘內(nèi)的物體狀態(tài),并支持用戶或AI智能體觸發(fā)提示的文本事件,例如即時天氣變化或新角色加入,保持沉浸感。

這項(xiàng)技術(shù)革新將幫助開發(fā)者、研究人員和省去手動制作資產(chǎn)的麻煩,在數(shù)秒內(nèi)完成高保真的交互式模擬原型構(gòu)建。

讓世界模型擁有“最強(qiáng)大腦”

提及世界模型,很多人都會想起去年OpenAI發(fā)布Sora時的火爆,同樣也能提供一段文字或圖片,就能通過AI生成一段高清且有電影感的短視頻。Sora作為一個AI視頻制作工具讓不少人看到了“會自主理解”的世界模型雛形。

對比其他大模型,世界模型的研究進(jìn)展相對緩慢,它需要完成即時計(jì)算,用戶所操作的任意一個動作都可能會影響到模型接下來會生成的內(nèi)容。AI要做的不只是識別用戶提供的文本或圖片,還要有記憶,通過大量的視頻數(shù)據(jù)訓(xùn)練來預(yù)判用戶的交互操作并通過AI來模擬現(xiàn)實(shí)世界的物理特性、動態(tài)變化和因果規(guī)律等等。

Meta首席AI科學(xué)家Yann LeCun認(rèn)為世界模型與其他AI模型的區(qū)別在于:

世界模型是一種現(xiàn)實(shí)的抽象數(shù)字孿生,AI可以參考它來理解世界并且預(yù)測自身行為的后果,與理解語言不同的是,世界模型讓機(jī)器能夠理解物理世界并且能夠規(guī)劃行動路線來完成任務(wù)而無需進(jìn)行數(shù)百萬次的試驗(yàn),因?yàn)槭澜缒P吞峁┝藢κ澜邕\(yùn)行方式的基本理解。

這種推理和規(guī)劃的能力將會帶來廣泛的影響,比如它可以用來幫助視障人士、在MR中為復(fù)雜的任務(wù)提供指導(dǎo)、讓教育變得更加個性化,甚至可以理解代碼對程序狀態(tài)和外部世界的影響。此外,世界模型對于自動駕駛汽車和機(jī)器人等自主系統(tǒng)也至關(guān)重要,它將開啟機(jī)器人技術(shù)的新紀(jì)元,讓現(xiàn)實(shí)世界中的AI Agent能夠在不需要大量機(jī)器人訓(xùn)練數(shù)據(jù)的情況下幫助完成家務(wù)和體力勞動等任務(wù)。

世界模型至今仍是一個寬泛的概念,科技巨頭們對它也有不同的理解和研發(fā)方向。

  1. WorldLabs(李飛飛)——大型世界模型:輸入一張圖片或文本描述,即可生成完整的、遵循基本物理規(guī)則的3D世界,目的是創(chuàng)建一個超越平面像素、跨越語言障礙、能夠真正捕捉3D世界結(jié)構(gòu)和空間智能的世界模型。
  2. 英偉達(dá)——Cosmos世界模型:它能根據(jù)提示生成出各種高仿真物理世界,用來訓(xùn)練機(jī)器人和自動駕駛系統(tǒng)。
  3. Meta——V-JEPA2世界模型:這是基于視頻訓(xùn)練的世界模型,它能實(shí)現(xiàn)在新環(huán)境中進(jìn)行零樣本規(guī)劃和機(jī)器人控制。V-JEPA2改進(jìn)了動作預(yù)測和世界建模功能,使機(jī)器人能夠與不熟悉的物體和環(huán)境交互以完成任務(wù)。
  4. 騰訊——混元3D世界模型1.0:這是開源的可沉浸漫游、可交互、可仿真的世界生成模型,為游戲開發(fā)、VR、數(shù)字內(nèi)容創(chuàng)作等領(lǐng)域帶來了全新的可能性。
  5. 昆侖萬維——Matrix-Game2.0:可保持對物理規(guī)律與場景語義的精準(zhǔn)理解,支持用戶通過簡單指令,自由探索、操控并實(shí)時構(gòu)建結(jié)構(gòu)清晰、細(xì)節(jié)豐富、規(guī)則合理的虛擬環(huán)境,該模型已全面開源。

這些只是研發(fā)世界模型的企業(yè)中的一部分,各大科技巨頭正從不同維度構(gòu)建世界模型的形態(tài),展現(xiàn)出世界模型在實(shí)時交互方面的巨大潛力,盡管距離真正實(shí)現(xiàn)完全符合現(xiàn)實(shí)物理規(guī)律、高度自主交互的理想狀態(tài)還有一定差距,世界模型還是為游戲開發(fā)、XR交互、模擬訓(xùn)練等領(lǐng)域的落地提供了具象化參照。

Genie 3的進(jìn)化之路

Genie 3的發(fā)布意味著AI的能力已經(jīng)從“內(nèi)容生成”跨越到“世界模擬”,它的進(jìn)步具體表現(xiàn)在哪些方面?

2024年2月,DeepMind發(fā)布了Genie 1,從最初的項(xiàng)目介紹來看,這是一個通過互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型,它可以通過合成圖像、照片甚至草圖生成無數(shù)種可玩(可控制動作)的世界。據(jù)稱可適用于任何類型的領(lǐng)域且并不局限于所呈現(xiàn)的2D平臺游戲和機(jī)器人技術(shù)。

以2D平臺游戲訓(xùn)練為主,早期還很粗糙且模糊的Genie 1

2024年12月,Genie 2就已經(jīng)能生成無限多樣、可操作、可游玩的3D環(huán)境了。DeepMind認(rèn)為,游戲在AI研究領(lǐng)域扮演著關(guān)鍵角色。游戲沉浸感的特性、獨(dú)特的挑戰(zhàn)任務(wù)以及可衡量的進(jìn)度,使其成為安全測試和提升AI能力的理想環(huán)境,Genie 2有了更多適用場景。

直到今年8月,Genie 3離通用人工智能 (AGI) 更進(jìn)一步?;贏I物理學(xué)的實(shí)時交互世界,可控性和實(shí)時交互性的提升,Genie 3還能保持視覺記憶與場景一致性。所顯示的內(nèi)容都是根據(jù)這個虛擬世界的描述詞和用戶操作逐幀創(chuàng)建的。

Genie 3發(fā)布后,谷歌DeepMind首席執(zhí)行官Demis Hassabis在新的采訪視頻中提到了對Genie 3和世界模型的看法(以下為采訪內(nèi)容節(jié)選):

Genie是幾個研究項(xiàng)目和各種想法的匯集成果。我們將棋盤游戲作為一個具有挑戰(zhàn)性的領(lǐng)域,來改進(jìn)AI算法。我們過去常常利用電腦游戲和3D游戲引擎構(gòu)建的傳統(tǒng)模擬環(huán)境來測試,并用來創(chuàng)建合成數(shù)據(jù)。

因?yàn)槲覀兿虢⒁粋€所謂的能真正理解物理世界的“世界模型”。它需要理解物理結(jié)構(gòu)、事物的運(yùn)作方式、材料和液體,甚至是各種生物和人類的行為,這些都是我們所處的物理世界的重要組成。要實(shí)現(xiàn)AGI需要先理解物理世界。

阻礙機(jī)器人技術(shù)發(fā)展的原因之一是世界模型的不成熟。像我們的Gemini Live項(xiàng)目Astra,可以擁有一個在日常生活中協(xié)助用戶的通用AI助手,它能夠在你的手機(jī)或眼鏡上,即便是這樣,AI助手也需要理解你所處的時空環(huán)境。

測試世界模型的有效性和深度最好的方法之一就是讓它反向生成世界的內(nèi)容。就像打開水龍頭,是否會有液體流出;或者在一面鏡子前,是否能看到自己的倒影。這也是Genie的目標(biāo):構(gòu)建世界模型,然后將它表達(dá)出來,并且真正生成具有一致性的世界。在未來,Genie 3以及后續(xù)版本的世界模型可能會在介于電影和游戲之間,開創(chuàng)一種全新的娛樂類別。

“造夢工具”Genie 3離XR并不遠(yuǎn)

初看Genie 3的演示時,便能直觀感受到它對“核”類游戲的適配性。如今像《后室》這類第一視角的池核、夢核風(fēng)格游戲越來越多,這類作品大多不以敘事為核心,少部分會融入互動解謎要素,更多時候以“探索體驗(yàn)”為主。近乎真實(shí)的視覺效果,以及充滿不確定性的荒誕、復(fù)古、混亂的復(fù)雜感受與尚未成熟的世界模型或是AIGC內(nèi)容的“抽象”相得益彰。

除了適配這類風(fēng)格化游戲,Genie 3 的潛力還體現(xiàn)在對復(fù)雜內(nèi)容的“實(shí)時轉(zhuǎn)化”上。

再想象一下,只需使用鍵鼠,就能通過Genie 3把《權(quán)力的游戲》、整部電視劇、原著書籍以及所有傳說故事輸入到系統(tǒng)中,實(shí)時創(chuàng)建這個西幻世界,然后戴上VR設(shè)備,就能進(jìn)入他們的生活和冒險(xiǎn)中。又或是與好友一起跑團(tuán)玩TRPG游戲,只需要輸入“充滿熔巖的叢林神廟”就能獲得一個可玩且持久的3D世界,NPC也能自由交流……這就像是打破了第四面墻,人人都是造夢建筑師。

若是將Genie 3接入谷歌的XR硬件,即可構(gòu)建一個可實(shí)時交互的虛擬世界,用戶可以通過虛擬形象探索互動。雖然Genie 3目前尚無法精準(zhǔn)復(fù)現(xiàn)現(xiàn)實(shí)世界的空間位置,但谷歌的3D地圖數(shù)據(jù)或許能成為重要支撐。

對開發(fā)者來說,Genie 3的交互反饋來自于AI訓(xùn)練過程中構(gòu)建的底層世界模型,而非預(yù)先編程。普通開發(fā)者往往需耗費(fèi)數(shù)月,才能完成單一物理維度的模擬實(shí)現(xiàn);而Genie 3將物理AI從底層融入系統(tǒng),從根本上改變了這一模式。

如果將Genie 3應(yīng)用到XR內(nèi)容,理論上是可行的,但以現(xiàn)今版本的Genie仍面臨多重挑戰(zhàn)。一是技術(shù)參數(shù)限制,Genie 3現(xiàn)在24fps、720p的運(yùn)行質(zhì)量只能保持幾分鐘的一致性,這對玩家來說還遠(yuǎn)不及預(yù)期;二是交互需求升級,XR內(nèi)容需要支持6DoF頭顯和手柄或是動捕設(shè)備等輸入方式;三是體驗(yàn)完整性不足,記憶能力有待提高且難以模擬多智能體復(fù)雜交互。

首個被邀請測試Genie 3的YouTube博主Tim Scarfe親自體驗(yàn)后震驚于這項(xiàng)令人嘆為觀止的技術(shù),他認(rèn)為:“這項(xiàng)技術(shù)可能成為下一個萬億美元的產(chǎn)業(yè),也可能成為VR的殺手級應(yīng)用?!?/p>

Genie 3的出現(xiàn),無疑為游戲與XR內(nèi)容領(lǐng)域打開了新的想象空間。隨著DeepMind對相關(guān)技術(shù)難點(diǎn)的持續(xù)攻克,或?qū)⑼苿邮澜缒P偷脑妇跋颥F(xiàn)實(shí)更進(jìn)一步。

參考鏈接:

https://www.youtube.com/watch?v=njDochQ2zHs

文/VR陀螺

本文由人人都是產(chǎn)品經(jīng)理作者【VR陀螺】,微信公眾號:【VR陀螺】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. Genie 3可實(shí)時生成可探索3D虛擬場景,推動AI從內(nèi)容生成邁向世界模擬,為游戲、XR帶來新可能,但當(dāng)前技術(shù)參數(shù)、交互及體驗(yàn)完整性不足。

    來自新疆 回復(fù)