一句指令,無限宇宙!Matrix-Game硬核上線,秒殺SOTA
昆侖萬維推出的 Matrix-Game,讓科幻中的「矩陣」照進(jìn)現(xiàn)實。它作為交互式世界生成領(lǐng)域的創(chuàng)世引擎,僅需一句話就能生成細(xì)節(jié)豐富、物理規(guī)則合理的虛擬世界,帶來沉浸式體驗,開啟無限可能。
黑客帝國中的「矩陣」,已照進(jìn)現(xiàn)實。
指尖輕點,一個細(xì)節(jié)滿滿、物理規(guī)則完美運轉(zhuǎn)的虛擬世界就此誕生。
這個曾經(jīng)只在科幻大片出現(xiàn)的場景,如今「空間智能」就幫人類實現(xiàn)了。
繼之前刷屏的單張圖片生成虛擬世界Matrix Zero之后,昆侖萬維又來搞事情了!
這次,他們再度撕裂技術(shù)邊界,推出Matrix系巔峰之作——Matrix-Game。
GitHub:https://github.com/SkyworkAI/Matrix-Game
Hugging Face:https://huggingface.co/Skywork/Matrix-Game
技術(shù)報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
項目主頁:https://matrix-game-homepage.github.io
這是一個不僅能生成虛擬世界,更讓你成為世界主宰的交互式創(chuàng)世引擎。
在這個空間智能時代,視頻生成、3D建模、交互控制的融合之力,正徹底顛覆人類與虛擬世界的連接方式。
1.直通「創(chuàng)世之神」
簡單來說,Matrix-Game就是通往「創(chuàng)世神」之路的超級加速器。
它是Matrix系列在交互世界生成領(lǐng)域的首次驚艷落地,一個專為游戲世界量身打造的交互式世界基礎(chǔ)模型。
Matrix-Game的強(qiáng)大之處在于,不僅能在開放世界里「造」出高質(zhì)量場景,還能精準(zhǔn)控制里面的細(xì)節(jié)。
現(xiàn)在,只需要輸入一個指令,即可自由探索、操控,甚至創(chuàng)造出細(xì)節(jié)豐富、物理規(guī)則合理的虛擬世界。
2.多場景可控生成
比如沙漠、森林、山丘、冰原、河流等場景,Matrix-Game可一鍵生成。
這種多場景泛化能力,讓Matrix-Game具備了強(qiáng)大的環(huán)境適用性,覆蓋了不同地形、天氣、生物群系的Minecraft場景。
依次是:沙漠、海灘、山丘、河流、森林(左右滑動查看)
它還能支持前進(jìn)、跳躍、攻擊等細(xì)節(jié)操作,會根據(jù)用戶的輸入,準(zhǔn)確響應(yīng)。
不論是敲擊鍵盤,還是鼠標(biāo)滑動,操作體驗非常絲滑,仿佛置身于真實世界。
依次是:前進(jìn)、后退、向左、向右、跳躍、攻擊
包括視角移動,可實現(xiàn)360°無死角生成。
依次是:視角移動向上、向下、向左、向右
依次是:視角移動左上、左下、右上、右下
現(xiàn)在,只需把場景和交互控制融合,便會驚嘆Matrix-Game無與倫比的技術(shù)實力。
不論是前進(jìn)、后退,向左、向右,Matrix-Game不僅能精準(zhǔn)響應(yīng),而且周邊物理環(huán)境生成的穩(wěn)定性極高。
再比如,跳躍攻擊等幅度大的動作,更是對AI空間生成提出了高難度的考驗。
Matrix-Game模擬了真實物理規(guī)律,精準(zhǔn)拿捏。
它生成的虛擬世界不僅視覺連貫、細(xì)節(jié)逼真,還嚴(yán)格遵守了自然物理規(guī)律,如重力、碰撞等。
這種高保真表現(xiàn),顯著提升了沉浸感,讓用戶仿佛「身臨其境」。
總而言之,Matrix-Game能在不同Minecraft場景下做到可控生成,包括基礎(chǔ)運動、復(fù)合運動、視角運動等。
3.泛化場景生成
更令人興奮的是,Matrix-Game展現(xiàn)出向非Minecraft游戲環(huán)境泛化的潛力,為更廣泛的應(yīng)用奠定了基礎(chǔ)。
比如,生成賽博風(fēng)格的城市。
還有古建筑風(fēng)格的場景,都能無限生成。
由上可見,Matrix-Game這一突破性成果,直接點燃了虛擬世界的無限可能。
它不僅刷新了交互式世界生成的技術(shù)天花板,更為構(gòu)建通用虛擬世界基座樹立了全新標(biāo)桿。
那么,它是如何做到的呢?
4.解密Matrix-Game三大技術(shù)核心
接下來,讓我們一一拆解Matrix-Game的三大「秘密武器」。
大規(guī)模高質(zhì)量Matrix-Game-MC數(shù)據(jù)集
數(shù)據(jù)是AI模型的「養(yǎng)分」,其質(zhì)量和豐富度直接決定了模型的成敗。
為此,昆侖萬維團(tuán)隊自主構(gòu)建了大規(guī)模Matrix-Game-MC數(shù)據(jù)集,為復(fù)雜環(huán)境的動態(tài)學(xué)習(xí)和交互模式訓(xùn)練,提供了堅實的基礎(chǔ)。
它涵蓋了「無標(biāo)注預(yù)訓(xùn)練數(shù)據(jù)」和精細(xì)標(biāo)注的「有標(biāo)注可控數(shù)據(jù)」,兼顧了數(shù)據(jù)規(guī)模和質(zhì)量。
無標(biāo)注預(yù)訓(xùn)練數(shù)據(jù)
從6000小時的MineDojo數(shù)據(jù)中,研究者通過三階段過濾機(jī)制,篩選出近千小時高質(zhì)量數(shù)據(jù)。
具體來說,經(jīng)過了(1) 畫質(zhì)與美學(xué)過濾;(2) 非游戲內(nèi)容剔除;(3) 動態(tài)與視角穩(wěn)定性過濾。
有標(biāo)注可控數(shù)據(jù)
這里,采用了兩種策略,生成數(shù)千小時的精細(xì)標(biāo)注數(shù)據(jù)。
探索智能體(Exploration Agent):利用VPT agent在 MineRL環(huán)境中進(jìn)行自動探索,生成包含精確鍵盤與鼠標(biāo)控制信號的Minecraft視頻數(shù)據(jù),支持可控性學(xué)習(xí)。
程序化模擬(Unreal Procedural Simulation):基于Unreal Engine手動構(gòu)建清晰、標(biāo)注精確的交互場景,提供位置信息、動作標(biāo)注(離散與連續(xù))、以及環(huán)境反饋信號(如方塊是否成功破壞),生成高精度、無噪聲的可控標(biāo)注數(shù)據(jù),助力高保真動作-響應(yīng)建模。
核心架構(gòu):從圖像出發(fā)構(gòu)建可控交互世界
基于當(dāng)前最火的擴(kuò)散模型技術(shù),Matrix-Game打造了一個從圖像到世界生成的創(chuàng)新框架。
只需輸入一個指令、鼠標(biāo)移動,它就能生成連貫、可控的互動視頻,兼顧視覺精度、時序一致性和物理合理性。
整體架構(gòu)的設(shè)計,有三大核心亮點:
1. 圖像到世界建模(Image-to-World Modeling)
它不依賴語言提示,僅基于視覺信號建??臻g幾何、物體運動,及物理交互,強(qiáng)調(diào)空間智能能力。
輸入形式是以單張參考圖像為起點,生成交互式視頻。
在交互可控生成上,融合了用戶動作輸入(如鍵盤、鼠標(biāo)),通過多模態(tài)擴(kuò)散模型,直接生成虛擬游戲世界的視頻內(nèi)容。
2. 自回歸式視頻生成(Autoregressive Diffusion Generation)
Matrix-Game支持自回歸方式scaling生成長度,可持續(xù)生成高一致性長視頻內(nèi)容。
每次,它會以前一視頻最后k=5幀作為運動上下文,逐段遞進(jìn)生成,確保了時間上的連貫性。
此外,通過隨機(jī)擾動、隨機(jī)刪除、分類引導(dǎo)(CFG)策略,可緩解時序漂移和誤差積累,確保了時間連貫性。
3. 可控交互設(shè)計(Injecting Actions for Controllability)
對于交互設(shè)計,鍵盤動作(如上下左右跳躍攻擊)是以離散token表達(dá),視角移動動作(如鼠標(biāo)pitch角度)則以連續(xù)token表達(dá)。
同時,它采用了GameFactory控制模塊,融入多模態(tài)Diffusion Transformer架構(gòu),并利用CFG提升對控制信號的魯棒響應(yīng)能力。
得益于這一架構(gòu),使得Matrix-Game在生成交互世界時,既能保持視覺上的驚艷效果,又能精準(zhǔn)響應(yīng)用戶指令。
統(tǒng)一評測體系
接下來,如何去全面、科學(xué)地評估交互世界生成模型的性能?
為此,研究團(tuán)隊創(chuàng)新性提出GameWorld Score評測體系。
它從視覺質(zhì)量、時間一致性、交互可控性,以及物理規(guī)則理解四個關(guān)鍵維度,來進(jìn)行量化評估。
- 視覺質(zhì)量(Visual Quality):基于人類視覺系統(tǒng)(HVS)標(biāo)準(zhǔn),評估每一幀圖像清晰度、結(jié)構(gòu)一致性與真實感。
- 時間一致性(Temporal Quality):衡量視頻的動態(tài)連貫性,包括運動連續(xù)性、節(jié)奏平滑性與時間穩(wěn)定性。
- 交互可控性(Action Controllability):測試生成結(jié)果是否準(zhǔn)確響應(yīng)用戶輸入的控制信號,涵蓋離散控制(如前進(jìn)、跳躍)和連續(xù)控制(如視角轉(zhuǎn)換)。
- 物理規(guī)則理解(Physical Rule Understanding):驗證生成視頻是否遵循物理常識與空間一致性。
這一體系的提出,填補(bǔ)了行業(yè)在交互性、物理一致性等維度的評測空白,為模型的迭代優(yōu)化提供了科學(xué)依據(jù)。
而且, GameWorld Score首次實現(xiàn)了對「感知質(zhì)量+控制能力+物理合理性」的全方位衡量。
它不僅為Matrix-Game性能提供了全面量化的依據(jù),也為整個交互世界生成領(lǐng)域,樹立了統(tǒng)一的標(biāo)準(zhǔn)。
5.刷新SOTA重塑交互式世界生成標(biāo)桿
在實驗評估中,通過兩階段訓(xùn)練策略(無標(biāo)注預(yù)訓(xùn)練 + 動作標(biāo)注微調(diào)),17B參數(shù)規(guī)模的大模型在空間理解、物理交互建模,以及用戶指令響應(yīng)方面,取得了顯著的突破。
在GameWorld Score評測系統(tǒng)中,Matrix-Game在以上四大評測維度中全面領(lǐng)先,超越了業(yè)內(nèi)著名開源基線——Decart的Oasis和微軟的MineWorld。
尤其是,新模型在交互可控性和物理一致性等關(guān)鍵指標(biāo)上,表現(xiàn)尤為突出。
在雙盲評實驗中,用戶更傾向于選擇Matrix-Game生成的視頻:
- 96.3%總體偏好率,生成效果更真實、連貫、可信;
- 93.76%動作控制偏好,準(zhǔn)確響應(yīng)鍵盤與鼠標(biāo)指令;
- 98.23%視覺質(zhì)量得分,單幀畫面更清晰美觀;
- 89.56%時間一致性得分,動態(tài)流暢,無閃爍跳變。
在控制性能上,Matrix-Game可實現(xiàn)「運動」「攻擊」等動作高達(dá)90%+準(zhǔn)確率;細(xì)粒度視角控制下依然保持高精度響應(yīng)。
此外,Matrix-Game在8大典型Minecraft場景中,也全面領(lǐng)先。
模型展現(xiàn)出卓越的環(huán)境適應(yīng)與泛化能力,可廣泛應(yīng)用于復(fù)雜動態(tài)的虛擬世界交互任務(wù)。
Matrix-Game用事實證明,它不僅能「看得清」,更能「動得準(zhǔn)、控得穩(wěn)」,是當(dāng)前最強(qiáng)的交互式世界生成基座模型之一。
6.多領(lǐng)域革命引擎解鎖交互宇宙
作為空間智能領(lǐng)域的先鋒之作,Matrix-Game不僅是一個技術(shù)突破,更是一個跨行業(yè)的賦能引擎。
通過融合視頻生成、三維建模與交互控制等核心技術(shù),空間智能不僅支持更加自然、直觀、沉浸的體驗,也在具身智能、影視制作、游戲開發(fā)等領(lǐng)域展現(xiàn)出巨大潛力。
Matrix-Game強(qiáng)大的交互式生成能力,未來將在多個領(lǐng)域掀起深遠(yuǎn)的變革。
虛擬游戲世界快速搭建
老黃曾表示,「用不了十年,我們就能看到游戲中每一個像素都是由AI生成的」。
Matrix-Game的誕生,讓這一預(yù)言又近了一步。
傳統(tǒng)游戲世界構(gòu)建,往往依賴人工設(shè)計和3D建模,開發(fā)周期長、成本高。
而且,許多游戲地圖和任務(wù)缺乏多樣性,難以滿足玩家對高自由度探索需求。
對于游戲開發(fā)者,Matrix-Game能以低成本、高效率生成細(xì)節(jié)豐富、可控的游戲地圖與任務(wù)環(huán)境,極大地縮短了開發(fā)周期。
不論是開放世界RPG的廣袤大陸,還是沙盒游戲的動態(tài)地形,Matrix-Game都能根據(jù)指令實時生成,賦予玩家更高自由度的探索體驗。
同時,其物理一致性確保了游戲世界的真實感、沉浸感。
具身智能體訓(xùn)練與測試
具身智能,也稱物理AI,是AI下一個前沿。
它能夠讓智能體在物理世界中,具備感知、推理和行動的能力。然而,現(xiàn)實開發(fā)和測試中,具身智能面臨著多種挑戰(zhàn)。
比如,環(huán)境復(fù)雜性不足,測試場景單一,測試中難以復(fù)現(xiàn)現(xiàn)實世界動態(tài)性和復(fù)雜性,導(dǎo)致訓(xùn)練效果較為有限。
又或是,真實物理環(huán)境搭建和數(shù)據(jù)采集耗時耗力,成本高昂等等。
在紅杉最新演講中,Jim Fan將「物理圖靈測試」稱之為AI的下一個北極星,即智能體在虛擬和物理世界無縫操作,展現(xiàn)出與人類無異的能力。
而Matrix-Game以高保真的交互世界生成能力,為智能體提供逼真的訓(xùn)練環(huán)境,直接助力這一目標(biāo)的實現(xiàn)。
從上面demo中不難看出,Matrix-Game可快速生成高度逼真虛擬場景,森林、山丘、冰原、蘑菇等,涵蓋了多樣地形、物體元素,多樣化場景定制。
這種環(huán)境不僅視覺細(xì)節(jié)豐富,還嚴(yán)格遵守物理規(guī)律,可以為具身智能提供接近真實世界的訓(xùn)練場。
另外,支持前進(jìn)、跳躍、抓取等精細(xì)動作,Matrix-Game還能讓智能體實時、細(xì)致的交互。
未來,Matrix-Game通過模擬極端天氣、家庭環(huán)境等,訓(xùn)練機(jī)器人、服務(wù)智能體,推動通用具身智能的實現(xiàn)。
影視與元宇宙內(nèi)容生產(chǎn)
在影視與元宇宙領(lǐng)域,虛擬場景往往依賴3D建模和特效團(tuán)隊,一個好萊塢特效場景制作可能耗費數(shù)月,甚至數(shù)年,成本動輒數(shù)百萬。
一些現(xiàn)有虛擬世界,多為靜態(tài)或有限的交互,難以滿足元宇宙用戶對自由探索和實時互動的需求。
Matrix-Game能以更高效生產(chǎn)真實合理的動態(tài)虛擬空間,直接賦能創(chuàng)意內(nèi)容制作與沉浸式體驗的開發(fā)。
它為導(dǎo)演、元宇宙開發(fā)者提供了一個革命性工具,將重塑虛擬內(nèi)容創(chuàng)作的未來。
教育與仿真系統(tǒng)構(gòu)建
Matrix-Game在教育、仿真系統(tǒng)構(gòu)建領(lǐng)域中,同樣大有可為。
即,通過生成高度可控、交互豐富的虛擬學(xué)習(xí)環(huán)境,為學(xué)生和專業(yè)人士提供一個沉浸式訓(xùn)練平臺。
舉個栗子,在醫(yī)學(xué)教育中,或許就可以利用Matrix-Game模擬手術(shù)室場景,讓學(xué)生身臨其境練習(xí)復(fù)雜操作。
在航空航天領(lǐng)域,則可以用于生成逼真的飛行模擬環(huán)境,幫助飛行員提升應(yīng)對突發(fā)狀況的能力。
這些虛擬場景的搭建,不僅能降低培訓(xùn)成本,還能通過交互反饋提升學(xué)習(xí)效果。
此外,在文化遺產(chǎn)保護(hù)、零售電商、數(shù)字孿生與智能城市規(guī)劃等領(lǐng)域中,Matrix-Game未來將會釋放無限的潛力。
它讓世界不再是靜態(tài)的畫卷,而是可以被探索、被操控、被創(chuàng)造的活宇宙。
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!