japanese在线播放,亚洲日本va中文字幕,性xxxx搡xxxxx搡欧美

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

大神Karpathy都投的AI實(shí)時(shí)視頻生成模型：直播都能立即轉(zhuǎn)，無(wú)限時(shí)長(zhǎng)幾乎零延遲

量子位

2025-07-20

0 評(píng)論 994 瀏覽 2 收藏

9 分鐘

40 毫秒能做啥？Decart 給出的答案是：無(wú)限生成一整場(chǎng)直播。今天，由 AI 大神 Karpathy 親自押注的初創(chuàng)公司 Decart 發(fā)布 MirageLSD，首個(gè)“零延遲、無(wú)時(shí)長(zhǎng)上限”的實(shí)時(shí)擴(kuò)散視頻模型——掃帚秒變麥克風(fēng)、棍子瞬間成光劍，游戲畫風(fēng)想換就換，連主播的臉都能實(shí)時(shí)換裝。本文帶你拆解它如何用自研 Live-Stream Diffusion 技術(shù)破解誤差累積魔咒，把 5 秒短視頻時(shí)代一腳踹進(jìn)無(wú)限流紀(jì)元。

大神Karpathy都忍不住投資的AI初創(chuàng)，帶來(lái)首個(gè)實(shí)時(shí)擴(kuò)散視頻生成！

用掃帚當(dāng)麥克風(fēng)，用盒子當(dāng)混音臺(tái)，無(wú)需昂貴設(shè)備就能開(kāi)一場(chǎng)沉浸式直播。

喜歡游戲類型但不喜歡游戲的畫面？簡(jiǎn)單，實(shí)時(shí)給它改個(gè)風(fēng)格是不是就舒服多了～

以上，就是AI初創(chuàng)公司Decart的最新視頻模型MirageLSD的演示效果，這是首個(gè)實(shí)現(xiàn)零延遲無(wú)限實(shí)時(shí)視頻生成的AI模型。

只要你有想象力，Mirage就能實(shí)時(shí)生成視頻流，為你打造專屬的魔法世界～

輸入支持直播、游戲、視頻通話、相機(jī)拍攝、點(diǎn)播等多種形式，可以說(shuō)是能轉(zhuǎn)盡轉(zhuǎn)了。

主要是Mirage和其他等待時(shí)間很久但只能生成5-10秒視頻的模型不一樣，它沒(méi)有時(shí)長(zhǎng)限制，延遲還降到了40毫秒以下，說(shuō)是零延遲也不為過(guò)吧。

響應(yīng)速度比之前的模型快16倍，實(shí)現(xiàn)了每秒24幀的實(shí)時(shí)視頻生成，還允許在視頻生成過(guò)程中進(jìn)行持續(xù)的提示、轉(zhuǎn)換和編輯。

做到了“你隨時(shí)想，我隨時(shí)轉(zhuǎn)”！

于是，AI大神卡帕西也出來(lái)力挺：實(shí)時(shí)！

同時(shí)他還透露自己也是Decart的天使投資人（非常?。?。

接下來(lái)讓我們看看Mirage是如何做到的。

攻克了傳統(tǒng)自回歸視頻模型中“誤差累積”的核心難題

MirageLSD采用Decart自定義的實(shí)時(shí)流擴(kuò)散模型Live-Stream Diffusion（LSD），LSD能夠在逐幀生成內(nèi)容的同時(shí)保持時(shí)間連貫性。

在視頻生成過(guò)程中，由于自回歸模型每一幀都依賴于前一幀，一個(gè)位置偏移的陰影或者一種紋理錯(cuò)誤的細(xì)節(jié)這些瑕疵會(huì)隨著時(shí)間的推移而不斷累積，這種誤差積累會(huì)使模型逐漸偏離訓(xùn)練。

當(dāng)前的視頻模型在生成超過(guò)20-30秒的內(nèi)容時(shí)，會(huì)因?yàn)檎`差累積而導(dǎo)致嚴(yán)重質(zhì)量下降，所以一些模型只能生成固定長(zhǎng)度的短視頻。

MirageLSD能夠?qū)崿F(xiàn)無(wú)限生成的核心就在于解決了傳統(tǒng)自回歸視頻模型中“誤差累積”這一關(guān)鍵瓶頸。

它采用逐幀的因果自回歸結(jié)構(gòu)處理數(shù)據(jù)，每幀生成僅依賴先前已生成的幀和用戶提示，而非完整視頻序列，這種模式為連續(xù)生成無(wú)限時(shí)長(zhǎng)視頻奠定了基礎(chǔ)。

同時(shí)依托Diffusion Forcing技術(shù)，讓模型在訓(xùn)練中學(xué)會(huì)獨(dú)立對(duì)單幀去噪，無(wú)需依賴完整視頻上下文，保證了逐幀生成的連貫性。

針對(duì)傳統(tǒng)自回歸模型中微小誤差隨時(shí)間疊加導(dǎo)致畫面失真的問(wèn)題，MirageLSD通過(guò)歷史增強(qiáng)策略解決：訓(xùn)練時(shí)向輸入的歷史幀中主動(dòng)添加模擬模型可能生成的偽影（如噪聲、畸變），使模型學(xué)會(huì)預(yù)判并糾正這些缺陷。

此外，在推理階段明確告知模型“歷史幀可能不準(zhǔn)確”，可以讓它保持對(duì)誤差的警惕性，持續(xù)調(diào)用訓(xùn)練中學(xué)習(xí)的糾正能力。

并且之前的模型都需要幾分鐘的處理時(shí)間才能生成幾秒鐘的內(nèi)容，以分塊的方式生成視頻還引入了不可避免的延遲，從而不能實(shí)現(xiàn)實(shí)時(shí)互動(dòng)。

MirageLSD采用改進(jìn)的Transformer模型架構(gòu)，搭配專門設(shè)計(jì)的視覺(jué)編碼器、改進(jìn)的位置編碼以及針對(duì)長(zhǎng)時(shí)間交互序列優(yōu)化的結(jié)構(gòu)，來(lái)快速處理輸入和生成輸出。

同時(shí)，對(duì)生成部分的擴(kuò)散模型部分應(yīng)用先進(jìn)的蒸餾策略，在保證生成質(zhì)量的前提下有效提升運(yùn)行速度，借助KV緩存技術(shù)支持的長(zhǎng)上下文窗口，讓模型能記住之前的狀態(tài)信息，避免因頻繁處理大量歷史數(shù)據(jù)導(dǎo)致延遲。

在核心集成幀級(jí)提示詞處理機(jī)制，可即時(shí)解析玩家的鍵盤指令和自然語(yǔ)言提示，快速轉(zhuǎn)化為相應(yīng)操作。

動(dòng)態(tài)輸入系統(tǒng)則能以超低延遲處理玩家輸入，無(wú)論是生成新元素還是改變環(huán)境都能迅速響應(yīng)。

此外，視覺(jué)更新通過(guò)全雙工通信通道流回，輸入與輸出并行處理，消除了數(shù)據(jù)傳輸和處理中的延遲；采用“垂直訓(xùn)練”流程讓模型深入學(xué)習(xí)相關(guān)規(guī)則與模式，減少了生成過(guò)程中的計(jì)算開(kāi)銷和錯(cuò)誤嘗試，進(jìn)一步間接提升了實(shí)時(shí)性能。

實(shí)現(xiàn)了“抖一抖衣服就能換裝”、“棍子變發(fā)光武器”之類的操作。

MirageLSD由位于美國(guó)加州的初創(chuàng)公司Decart打造，該公司成立于2023年。

2024年，Decart推出了自己的第一款模型Oasis，這是首個(gè)實(shí)時(shí)生成式AI開(kāi)放世界模型。

Oasis支持實(shí)時(shí)交互，能實(shí)現(xiàn)每秒20幀零延遲的生成效率。

由此看來(lái)，MirageLSD如今每秒24幀的效率也有所提升。

團(tuán)隊(duì)還表示將定期發(fā)布MirageLSD的升級(jí)模型和新增功能，包括面部一致性、語(yǔ)音控制和精確物體控制等，逐步提升用戶體驗(yàn)。

聞樂(lè) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號(hào)：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。聞樂(lè) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App