深扒一下鵝廠新出的視頻生成系統(tǒng)「Yan」

0 評論 2900 瀏覽 2 收藏 13 分鐘

本文一次性深扒Yan的仿真-生成-編輯三大內核、400M幀訓練數(shù)據(jù)黑科技,以及對游戲、XR、智能體訓練即將帶來的沖擊。想提前拿到“人人都是造夢師”的門票,從這5000字開始。

最近,騰訊推出了一款互動視頻生成系統(tǒng)——Yan,面向游戲、虛擬世界、AIGC等場景,支持高保真、實時、可編輯的互動視頻生成(論文地址:https://arxiv.org/abs/2508.08601v3)。)

本文系統(tǒng)梳理Yan的技術方案,重點解析其在數(shù)據(jù)采集、AAA級仿真、多模態(tài)生成、交互式編輯等方面的核心突破,并展望未來發(fā)展方向。

一、什么是互動視頻生成(IGV)?

互動視頻生成(Interactive Generative Video, IGV [1])是指AI系統(tǒng)能夠不斷根據(jù)用戶輸入,生成可交互的視頻內容。這一范式突破了傳統(tǒng)視頻生成的靜態(tài)、單向特性,使內容能夠動態(tài)響應用戶操作,帶來個性化、沉浸式的體驗。其潛在價值包括:

  1. 內容創(chuàng)作:極大提升AIGC內容的多樣性與可控性,賦能游戲、虛擬世界、影視、教育等領域的創(chuàng)作與交互。
  2. 智能體訓練:為智能體提供無限、可控的仿真環(huán)境,推動通用智能體的研究與應用。
  3. 人機交互:實現(xiàn)更自然、實時的AI-人互動范式,拓展AI在娛樂、社交等場景的邊界。

目前主流的互動視頻生成方案主要包括:

  1. 世界模型:如上周新鮮出爐的Genie3[2],可基于文本/圖片生成可交互(可移動探索)環(huán)境,支持prompt可控編輯環(huán)境內容,但分辨率、交互豐富程度、交互時長等仍有提升空間。
  2. 基于游戲的互動視頻生成:如The-Matrix[3]、Matrix-Game[4]等,聚焦于游戲場景,部分支持實時交互,但在泛化性、高分辨率、復雜物理仿真、內容編輯等方面存在不足。

我們的嘗試??

基于上述背景,我們團隊在互動視頻生成領域進行了一次系統(tǒng)性嘗試,提出了Yan框架?!癥an”(衍)寓意“演化、流變”,象征著內容與現(xiàn)實的不斷生成與展開。我們以“高畫質、強交互、可編輯”為目標,探索了端到端的互動視頻生成新范式,力求推動AIGC邁向下一代開放式、可控的數(shù)字內容引擎。

二、技術方案與應用探索

2.1 總體框架概覽

整體框架示意圖

Yan整體采用端到端的互動視頻生成范式,核心由三大模塊組成:Yan-Sim(AAA級仿真)、Yan-Gen(多模態(tài)生成)、Yan-Edit(多粒度編輯)。三者均基于從游戲環(huán)境(基于元夢之星)中采樣而來,大規(guī)模高質量互動視頻數(shù)據(jù)集進行訓練和協(xié)同優(yōu)化,形成完整的“仿真-生成-編輯”一體化流程。其設計目標是實現(xiàn)高分辨率、低延遲、強交互、可編輯的開放式內容生成。

  1. Yan-Sim(AAA級仿真):實現(xiàn)高保真、實時的互動視頻仿真,精準還原物理機制與用戶操作響應,并支持多場景仿真與生成(如草原、城堡、雨林、月球等復雜環(huán)境,滿足游戲、虛擬世界等高標準需求)。
  2. Yan-Gen(多模態(tài)生成):支持文本、圖像等多模態(tài)輸入,生成多樣化、可控的互動內容,能夠實現(xiàn)文本驅動的場景生成、跨域融合等多樣化內容創(chuàng)作,展現(xiàn)出極強的泛化與可控性。
  3. Yan-Edit(多粒度編輯):支持結構與風格的實時編輯,用戶可通過文本prompt動態(tài)修改內容,實現(xiàn)結構與風格的多粒度、實時交互式視頻編輯,極大提升了內容創(chuàng)作的靈活性與交互性。

三大模塊均依賴于統(tǒng)一的高質量互動視頻數(shù)據(jù)采集與預處理流程,數(shù)據(jù)集為整個系統(tǒng)提供了堅實的基礎。

2.2 高質量互動視頻數(shù)據(jù)采集

數(shù)據(jù)采集管線示意圖

Yan構建了大規(guī)模的高質量互動視頻數(shù)據(jù)集,覆蓋90+場景、400M幀(3700小時),具備高分辨率(1080P)、高幀率(30FPS)、高精度動作-圖像對齊和豐富動作空間。

  1. 自動采集管線:基于強化學習與隨機策略的探索Agent,自動在現(xiàn)代3D游戲環(huán)境中采集多樣化互動數(shù)據(jù)。
  2. 多重數(shù)據(jù)過濾:基于視覺、異常、規(guī)則三重過濾,剔除渲染失敗、卡頓、規(guī)則異常等低質樣本。
  3. 均衡采樣:對位置、存活、碰撞等屬性均衡采樣,提升泛化能力。
  4. 多樣動作空間:支持移動、跳躍、俯沖、視角旋轉等復雜動作,拓展交互自由度。

數(shù)據(jù)集對比表:

2.3 Yan-Sim:AAA級實時仿真及多場景應用

Yan-Sim模型結構示意圖

Yan-Sim模塊基于高壓縮、低延遲3D-VAE與KV-cache shift-window去噪推理,實現(xiàn)1080P/60FPS的高保真實時仿真,支持復雜物理機制與多風格場景。

模型架構:

  • 基于自回歸擴散模型范式,VAE下采樣因子由8提升至32,通道數(shù)擴展至16,并在temporal壓縮2倍,極大提升推理效率。
  • 擴散模型采用空間、動作、時序三重注意力,采用因果時序注意力機制,支持逐幀自回歸生成。

推理優(yōu)化:

  • DDIM采樣步數(shù)降至4,shift-window去噪并行處理不同噪聲級幀,KV緩存減少冗余計算,支持每推理一次,就可以出一幀畫面。
  • 結構剪枝+FP8量化,推理速度提升1.5-2倍,支持多GPU并行推理加速。

特性對比表:

多場景仿真與生成效果:

  • 多風格高分辨率場景還原,動作一致性強,物理機制(如慣性、電擊、彈跳等)精準模擬。
  • 支持無限時長、長視頻生成,時空一致性優(yōu)異。

2.4 Yan-Gen:多模態(tài)交互生成與內容擴展

Yan-Gen模型結構示意圖

Yan-Gen模塊實現(xiàn)了基于文本、圖像、動作等多模態(tài)輸入的實時互動視頻生成,具備強泛化與可控性。 能夠實現(xiàn)交互場景生成、跨域融合等多樣化內容創(chuàng)作。

層次化caption體系:

  • 全局caption錨定世界靜態(tài)屬性(布局、風格、光照等),局部caption描述動態(tài)事件,防止長時漂移。
  • 采用VLM自動標注,98M幀訓練數(shù)據(jù)。

多模態(tài)條件注入:

  • 文本(umt5-xxl)、圖像(ViT-H-14)、動作序列分別編碼,通過解耦cross-attention層注入DiT主干。
  • 動作條件支持逐幀精準控制,提升交互響應。

自回歸與蒸餾優(yōu)化:

  • ODE軌跡采樣+blockcausalattention,訓練few-step自回歸生成器,DMD蒸餾提升推理效率。
  • 單卡12-17FPS,多卡可達30FPS,支持無限時長、實時prompt切換。

多模態(tài)內容生成與擴展效果:

  • 文本/圖像驅動的交互場景生成,支持復雜物理與交互邏輯。

2.5 Yan-Edit:多粒度交互編輯與風格創(chuàng)作

Yan-Edit模型結構示意圖

Yan-Edit模塊實現(xiàn)了結構與風格的多粒度、實時交互式視頻編輯,支持任意時刻通過文本prompt修改內容。 用戶可通過文本prompt動態(tài)添加/替換場景元素、切換渲染風格,極大提升了內容創(chuàng)作的靈活性與交互性。

架構設計:

  • 采用“交互機制模擬+視覺渲染”解耦架構,以深度圖為中間態(tài)連接兩個模塊
  • 交互機制模擬模塊基于Yan-Sim,結構prompt通過cross-attention注入,支持結構編輯。
  • 視覺渲染模塊基于Yan-Gen+ControlNet,styleprompt控制風格渲染。

訓練與推理:

  • 深度圖VAE+結構/動作聯(lián)合訓練,風格渲染用VACE[9]開源ControlNet權重,DMD蒸餾few-step生成器。
  • 支持任意時刻結構/風格prompt切換,保證編輯內容的交互性與時空一致性。

結構與風格實時編輯效果:

  • 結構編輯:動態(tài)添加/替換場景元素,實時響應用戶操作。
  • 風格編輯:多風格切換,支持開放域描述,編輯過程無縫銜接。

3 總結與展望

局限性:

  • 長時空一致性仍有提升空間,復雜交互場景下偶有漂移。
  • 輕量化與邊緣部署待優(yōu)化。
  • 動作空間與交互復雜度受限于底層環(huán)境,向真實世界擴展仍需探索。

未來方向:

  • 擴展數(shù)據(jù)與模型規(guī)模,提升效率與泛化能力。

4 參考文獻

[1] Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, and Xihui Liu. A survey of interactive generative video. arXiv preprint arXiv:2504.21853, 2025a.

[2] Genie 3: A new frontier for world models

[3] Ruili Feng, Han Zhang, Zhantao Yang, Jie Xiao, Zhilei Shu, Zhiheng Liu, Andy Zheng, Yukun Huang, Yu Liu, and Hongyang Zhang. The matrix: Infinite-horizon world generation with real-time moving control. arXiv preprint arXiv:2412.03568, 2024.

[4] Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Zedong Gao, Eric Li, Yang Liu, and Yahui Zhou. Matrix-game: Interactive world foundation model. arXiv, 2025.

[5] Mingyu Yang, Junyou Li, Zhongbin Fang, Sheng Chen, Yangbin Yu, Qiang Fu, Wei Yang, and Deheng Ye. Playable game generation. arXiv preprint arXiv:2412.00887, 2024.

[6] Jiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, and Xihui Liu. Gamefactory: Creating new games with generative interactive videos. arXiv preprint arXiv:2501.08325, 2025b.

[8] Genie 2: A large-scale foundation world model

[9] Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, and Yu Liu. Vace: All-in-one video creation and editing. arXiv preprint arXiv:2503.07598, 2025.

本文由人人都是產(chǎn)品經(jīng)理作者【鵝廠技術派】,微信公眾號:【鵝廠技術派】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!