大神Karpathy都投的AI實(shí)時(shí)視頻生成模型:直播都能立即轉(zhuǎn),無(wú)限時(shí)長(zhǎng)幾乎零延遲

0 評(píng)論 994 瀏覽 2 收藏 9 分鐘

40 毫秒能做啥?Decart 給出的答案是:無(wú)限生成一整場(chǎng)直播。今天,由 AI 大神 Karpathy 親自押注的初創(chuàng)公司 Decart 發(fā)布 MirageLSD,首個(gè)“零延遲、無(wú)時(shí)長(zhǎng)上限”的實(shí)時(shí)擴(kuò)散視頻模型——掃帚秒變麥克風(fēng)、棍子瞬間成光劍,游戲畫風(fēng)想換就換,連主播的臉都能實(shí)時(shí)換裝。本文帶你拆解它如何用自研 Live-Stream Diffusion 技術(shù)破解誤差累積魔咒,把 5 秒短視頻時(shí)代一腳踹進(jìn)無(wú)限流紀(jì)元。

大神Karpathy都忍不住投資的AI初創(chuàng),帶來(lái)首個(gè)實(shí)時(shí)擴(kuò)散視頻生成!

用掃帚當(dāng)麥克風(fēng),用盒子當(dāng)混音臺(tái),無(wú)需昂貴設(shè)備就能開(kāi)一場(chǎng)沉浸式直播。

喜歡游戲類型但不喜歡游戲的畫面?簡(jiǎn)單,實(shí)時(shí)給它改個(gè)風(fēng)格是不是就舒服多了~

以上,就是AI初創(chuàng)公司Decart的最新視頻模型MirageLSD的演示效果,這是首個(gè)實(shí)現(xiàn)零延遲無(wú)限實(shí)時(shí)視頻生成的AI模型。

只要你有想象力,Mirage就能實(shí)時(shí)生成視頻流,為你打造專屬的魔法世界~

輸入支持直播、游戲、視頻通話、相機(jī)拍攝、點(diǎn)播等多種形式,可以說(shuō)是能轉(zhuǎn)盡轉(zhuǎn)了。

主要是Mirage和其他等待時(shí)間很久但只能生成5-10秒視頻的模型不一樣,它沒(méi)有時(shí)長(zhǎng)限制,延遲還降到了40毫秒以下,說(shuō)是零延遲也不為過(guò)吧。

響應(yīng)速度比之前的模型快16倍,實(shí)現(xiàn)了每秒24幀的實(shí)時(shí)視頻生成,還允許在視頻生成過(guò)程中進(jìn)行持續(xù)的提示、轉(zhuǎn)換和編輯。

做到了“你隨時(shí)想,我隨時(shí)轉(zhuǎn)”!

于是,AI大神卡帕西也出來(lái)力挺:實(shí)時(shí)!

同時(shí)他還透露自己也是Decart的天使投資人(非常?。?。

接下來(lái)讓我們看看Mirage是如何做到的。

攻克了傳統(tǒng)自回歸視頻模型中“誤差累積”的核心難題

MirageLSD采用Decart自定義的實(shí)時(shí)流擴(kuò)散模型Live-Stream Diffusion(LSD),LSD能夠在逐幀生成內(nèi)容的同時(shí)保持時(shí)間連貫性。

在視頻生成過(guò)程中,由于自回歸模型每一幀都依賴于前一幀,一個(gè)位置偏移的陰影或者一種紋理錯(cuò)誤的細(xì)節(jié)這些瑕疵會(huì)隨著時(shí)間的推移而不斷累積,這種誤差積累會(huì)使模型逐漸偏離訓(xùn)練。

當(dāng)前的視頻模型在生成超過(guò)20-30秒的內(nèi)容時(shí),會(huì)因?yàn)檎`差累積而導(dǎo)致嚴(yán)重質(zhì)量下降,所以一些模型只能生成固定長(zhǎng)度的短視頻。

MirageLSD能夠?qū)崿F(xiàn)無(wú)限生成的核心就在于解決了傳統(tǒng)自回歸視頻模型中“誤差累積”這一關(guān)鍵瓶頸。

它采用逐幀的因果自回歸結(jié)構(gòu)處理數(shù)據(jù),每幀生成僅依賴先前已生成的幀和用戶提示,而非完整視頻序列,這種模式為連續(xù)生成無(wú)限時(shí)長(zhǎng)視頻奠定了基礎(chǔ)。

同時(shí)依托Diffusion Forcing技術(shù),讓模型在訓(xùn)練中學(xué)會(huì)獨(dú)立對(duì)單幀去噪,無(wú)需依賴完整視頻上下文,保證了逐幀生成的連貫性。

針對(duì)傳統(tǒng)自回歸模型中微小誤差隨時(shí)間疊加導(dǎo)致畫面失真的問(wèn)題,MirageLSD通過(guò)歷史增強(qiáng)策略解決:訓(xùn)練時(shí)向輸入的歷史幀中主動(dòng)添加模擬模型可能生成的偽影(如噪聲、畸變),使模型學(xué)會(huì)預(yù)判并糾正這些缺陷。

此外,在推理階段明確告知模型“歷史幀可能不準(zhǔn)確”,可以讓它保持對(duì)誤差的警惕性,持續(xù)調(diào)用訓(xùn)練中學(xué)習(xí)的糾正能力。

并且之前的模型都需要幾分鐘的處理時(shí)間才能生成幾秒鐘的內(nèi)容,以分塊的方式生成視頻還引入了不可避免的延遲,從而不能實(shí)現(xiàn)實(shí)時(shí)互動(dòng)。

MirageLSD采用改進(jìn)的Transformer模型架構(gòu),搭配專門設(shè)計(jì)的視覺(jué)編碼器、改進(jìn)的位置編碼以及針對(duì)長(zhǎng)時(shí)間交互序列優(yōu)化的結(jié)構(gòu),來(lái)快速處理輸入和生成輸出。

同時(shí),對(duì)生成部分的擴(kuò)散模型部分應(yīng)用先進(jìn)的蒸餾策略,在保證生成質(zhì)量的前提下有效提升運(yùn)行速度,借助KV緩存技術(shù)支持的長(zhǎng)上下文窗口,讓模型能記住之前的狀態(tài)信息,避免因頻繁處理大量歷史數(shù)據(jù)導(dǎo)致延遲。

在核心集成幀級(jí)提示詞處理機(jī)制,可即時(shí)解析玩家的鍵盤指令和自然語(yǔ)言提示,快速轉(zhuǎn)化為相應(yīng)操作。

動(dòng)態(tài)輸入系統(tǒng)則能以超低延遲處理玩家輸入,無(wú)論是生成新元素還是改變環(huán)境都能迅速響應(yīng)。

此外,視覺(jué)更新通過(guò)全雙工通信通道流回,輸入與輸出并行處理,消除了數(shù)據(jù)傳輸和處理中的延遲;采用“垂直訓(xùn)練”流程讓模型深入學(xué)習(xí)相關(guān)規(guī)則與模式,減少了生成過(guò)程中的計(jì)算開(kāi)銷和錯(cuò)誤嘗試,進(jìn)一步間接提升了實(shí)時(shí)性能。

實(shí)現(xiàn)了“抖一抖衣服就能換裝”、“棍子變發(fā)光武器”之類的操作。

MirageLSD由位于美國(guó)加州的初創(chuàng)公司Decart打造,該公司成立于2023年。

2024年,Decart推出了自己的第一款模型Oasis,這是首個(gè)實(shí)時(shí)生成式AI開(kāi)放世界模型。

Oasis支持實(shí)時(shí)交互,能實(shí)現(xiàn)每秒20幀零延遲的生成效率。

由此看來(lái),MirageLSD如今每秒24幀的效率也有所提升。

團(tuán)隊(duì)還表示將定期發(fā)布MirageLSD的升級(jí)模型和新增功能,包括面部一致性、語(yǔ)音控制和精確物體控制等,逐步提升用戶體驗(yàn)。

聞樂(lè) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。聞樂(lè) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!