阿里開源的新視頻模型,沒準會成為中國?Adobe
阿里巴巴開源的通義萬相Wan2.1-VACE視頻編輯大模型,憑借其強大的多任務(wù)能力和可編輯性,有望成為中國版的Adobe。該模型不僅支持基礎(chǔ)的文生視頻,還具備圖像參考、視頻重繪、局部編輯等多種功能,極大地提升了視頻生成的靈活性和可控性。本文將深入探討這一模型的技術(shù)亮點、應(yīng)用場景以及其對未來視頻制作行業(yè)的潛在影響。
昨晚,阿里巴巴正式開源了 All in one 的視頻編輯大模型通義萬相 Wan2.1-VACE,而這個模型,沒準能讓阿里在視頻制作領(lǐng)域成為中國未來的 Adobe 。
為什么這么說呢?在介紹 VACE 之前,我們先鋪墊一些視頻生成類模型產(chǎn)品的現(xiàn)狀。
這類產(chǎn)品給大眾最深的印象通常是即時生成帶來的驚艷感。不僅僅是生成質(zhì)量,其抽卡特性使得每次相同輸入有不同結(jié)果輸出的體驗猶如盲盒般有趣。
不過,對于把 AI 當作生產(chǎn)力的專業(yè)群體,抽卡只是工作的第一步,實際上他們經(jīng)常崩潰于二次、多次編輯階段。
想象一個場景,一家初創(chuàng)公司想要在社交媒體上發(fā)布一條 30 秒的新品宣傳短片。這家公司的產(chǎn)品是一臺便攜式咖啡機,目標受眾是城市白領(lǐng)和旅行愛好者,員工希望讓 AI 幫忙完成短片的制作。這樣的需求在實踐中僅僅靠 AI “ 一次性輸出 ” 素材 ” 或 “頻繁抽卡”,是永遠是行不通的。
因為設(shè)計需求本身會在第一次生成開始就不斷變化,比如市場部提出的亮點( “ 快速萃取 ”、“ USB-C 供電 ”、“ 輕量化 ” )常常在后續(xù)會議中被臨時調(diào)整。此外,好的創(chuàng)意需要反復打磨,比如畫面節(jié)奏、文案語氣、鏡頭切換等,只有看了初稿后才知道“對不對味”。
如果 AI 只能一次性產(chǎn)出結(jié)果,則任何后期修改都會很困難甚至相當于重來。所以只有具備多輪交互和可編輯性后,創(chuàng)作周期才能大大縮短,同時保持創(chuàng)意靈活性,AI 才能成為真正的生產(chǎn)力工具。
因此,密切的人機交互目前是最契合 AI 發(fā)展的路線,但想做到這一點,非常的難。
比起文字,像素類的對象生成的可控性顯然要更加難。不考慮語義約束或物理約束,以狀態(tài)數(shù)比較來看,一句 10 個 token 的文本,以 GPT-4 為例,其詞表大小約為 10^5,那么總狀態(tài)數(shù)是 (10^5)^10=1.0×10^50。對于彩色 RGB 視頻( 每個像素 3 個 RGB 通道,每個 RGB 通道 256 個取值,共 768 個取值 ),比如128×128像素,3秒10幀的視頻,共491520個像素,潛在狀態(tài)數(shù)為768^491520,其狀態(tài)數(shù)數(shù)量級遠遠大于文本。
這也就不難理解為什么視頻生成產(chǎn)品目前普遍速度慢且貴,而這其實也更體現(xiàn)二次編輯相對于無腦抽卡的效率和成本優(yōu)勢了。
現(xiàn)階段,圖像、3D 的生成可控性已有不錯進展,但視頻的可控生成僅在近期才有肉眼可見的成果。而且主流的相關(guān)產(chǎn)品仍有較大的局限性,這其實對創(chuàng)意落地的限制性很大。
通義萬相團隊向知危表示,視頻生成與編輯面臨較大挑戰(zhàn):
- 視頻生成與編輯的碎片化問題:傳統(tǒng)的視頻生成或編輯方法通常針對單一任務(wù)( 如文生視頻、參考生成、對象替換 ),缺乏統(tǒng)一框架,導致不同任務(wù)需獨立的模型,鏈路串聯(lián)效率低下、推理成本高。
- 可控性不足:現(xiàn)有方法難以同時支持多維度或多任務(wù)編輯( 如主體、內(nèi)容、結(jié)構(gòu)同時參考 ),用戶無法像編輯文本一樣靈活地調(diào)整視頻。
- 高質(zhì)量內(nèi)容生成需求:短視頻、影視行業(yè)需要高保真、高一致性的視頻生成,而現(xiàn)有模型易出現(xiàn)幀間閃爍、語義不一致等問題。
以專業(yè) P 圖軟件為例,一款設(shè)計軟件之所以能在緊張的生產(chǎn)流程中真正派上用場,關(guān)鍵在于它提供了種類繁多、可按需組合的工具生態(tài):從修補畫筆、內(nèi)容感知填充,到通道混合器、位圖/矢量蒙版,再到動作腳本和第三方插件,幾乎每一種創(chuàng)意訴求都能找到對應(yīng) “ 利器 ”。
這讓設(shè)計師能夠在不同項目階段靈活切換思路與技法,無需跳出工作界面就能完成。
而昨晚,阿里巴巴正式開源的通義萬相Wan2.1-VACE,就在AI視頻領(lǐng)域?qū)崿F(xiàn)了生產(chǎn)級別的多任務(wù)能力。
開源地址如下:
- GitHub:https://github.com/Wan-Video/Wan2.1
- HuggingFace:https://huggingface.co/Wan-AI
- 魔搭社區(qū):https://www.modelscope.cn/organization/Wan-AI?tab=model
Wan2.1-VACE 擁有 1.3B 和 14B 兩個版本,其中 1.3B 版本適合本地部署和玩法微調(diào),可在消費級顯卡運行( 此前已發(fā)布 Preview 版 ),支持 480P 分辨率,14B 版本生成質(zhì)量更高,支持 480P 和 720P 分辨率。
現(xiàn)在,開發(fā)者可在 GitHub、Huggingface 及魔搭社區(qū)下載體驗。該模型還將逐步在通義萬相官網(wǎng)和阿里云百煉上線。
Wan2.1-VACE 主打 “ 功能最全 ” 與 “ 可編輯性 ”,單一模型不僅支持最基礎(chǔ)的文生視頻,還同時支持多種功能。不必再為了單一功能訓練一個新的專家模型,也省去了部署多個模型的開銷。通義萬相團隊表示:Wan2.1-VACE 是第一個基于視頻 DiT 架構(gòu)的同時支持如此廣泛任務(wù)的一體化模型。
文本條件大幅提升了視頻生成的可編輯性,但卻不足以精準控制視頻中的所有細節(jié)( 例如精確的布局、對象形狀等 ),因此 Wan2.1-VACE 擴展了多任務(wù)能力以實現(xiàn)更加精細的可編輯性。
總體而言,Wan2.1-VACE 的多任務(wù)能力包括:
- 圖像參考能力,給定參考主體( 人臉或物體 )和背景,生成元素一致的視頻內(nèi)容。
- 視頻重繪能力,包括姿態(tài)遷移、運動控制、結(jié)構(gòu)控制、重新著色等( 基于深度圖、光流、布局、灰度、線稿和姿態(tài)等控制 );
- 局部編輯能力,包括主體重塑、主體移除、背景延展、時長延展等。
比如圖像參考生成,在示例中,Wan2.1-VACE 基于小蛇和女孩的參考圖生成了一個視頻,女孩在視頻里輕輕摸了摸小蛇。圖像參考生成對于添加新元素很重要,并能保證多鏡頭視頻中的元素一致性。
提示詞:在一個歡樂而充滿節(jié)日氣氛的場景中,穿著鮮艷紅色春服的小女孩正與她的可愛卡通蛇嬉戲。她的春服上繡著金色吉祥圖案,散發(fā)著喜慶的氣息,臉上洋溢著燦爛的笑容。蛇身呈現(xiàn)出亮眼的綠色,形狀圓潤,寬大的眼睛讓它顯得既友善又幽默。小女孩歡快地用手輕輕撫摸著蛇的頭部,共同享受著這溫馨的時刻。周圍五彩斑斕的燈籠和彩帶裝飾著環(huán)境,陽光透過灑在她們身上,營造出一個充滿友愛與幸福的新年氛圍。
局部編輯是高效可編輯性也不可或缺的,能實現(xiàn)刪除、替換原有元素以及加入新元素的能力。在下圖中,Wan2.1-VACE 用視頻局部編輯能力將女士手里的平板電腦不留痕跡地移除了。
提示詞:紀實攝影風格,房產(chǎn)自媒體博主站在一間現(xiàn)代化的客廳中央。博主穿著簡潔時尚的衣物,面帶微笑,兩只手舉在身前,手上空無一物正對著鏡頭介紹房屋情況。背景是一間寬敞明亮的客廳,家具簡約現(xiàn)代,落地窗外是綠意盎然的花園。房間內(nèi)光線充足,溫馨舒適。中景全身人像,平視視角,輕微的運動感,如手指輕點屏幕。
此外,通過進一步結(jié)合視頻重繪,Wan2.1-VACE 能基于不同的運動控制能力來控制新元素的呈現(xiàn)。
比如,草圖/邊緣圖適合控制物體整體的運動軌跡,下圖展示了 Wan2.1-VACE 基于草圖運動軌跡和戰(zhàn)斗機參考圖生成的戰(zhàn)斗機運動以及鏡頭運動效果。
提示詞:戰(zhàn)斗機視角,急速旋轉(zhuǎn),在云層中與敵機纏斗,突然翻滾,急速下?lián)u,導彈擦過機身,尾焰在云層中劃出弧線。
灰度視頻提供了內(nèi)容的明暗信息,可用于指導模型為其上色( 彩色化 )或重建細節(jié)。在下圖中,Wan2.1-VACE 還基于灰度圖生成了在運行的火車旁邊騎馬的男子的視頻。
提示詞:一個外國男人騎著一匹棕色的馬在鐵軌旁奔跑。他穿著一件灰色襯衫和黑色牛仔帽,背景是一列蒸汽火車正在行駛中,它由多個車廂組成,并且冒著煙霧。天空是橙色的日落景象。
人體姿態(tài)圖( 骨架關(guān)鍵點 )提供了直觀的結(jié)構(gòu)信息,非常適合用來控制視頻中角色的動作。在下圖中,Wan2.1-VACE 基于人體姿態(tài)圖生成了男孩練習空手道的視頻。
提示詞:寫實風格攝影,10 歲白人男孩身穿白色武術(shù)服,系著黃色腰帶,在寬敞明亮的房間里練習空手道。他專注而有紀律地出拳、擺架勢,動作流暢自如。背景模糊處理,隱約可見堆放的墊子等健身房設(shè)備。鏡頭跟隨他的動作,水平左右搖移,捕捉中近景畫面,展現(xiàn)他控制力強且連貫的動作。
光流描述了幀間像素的運動,是表達細粒度運動結(jié)構(gòu)的重要模態(tài)。在下圖中,Wan2.1-VACE基于光流圖生成了話梅掉進水里引發(fā)水花飛濺的畫面。
提示詞:紀實攝影風格,一顆深紫色的話梅緩緩落入透明玻璃杯中,濺起晶瑩剔透的水花。畫面以慢鏡頭捕捉這一瞬間,水花在空中綻放,形成美麗的弧線。玻璃杯中的水清澈見底,話梅的色彩與之形成鮮明對比。背景簡潔,突出主體。近景特寫,垂直俯視視角,展現(xiàn)細節(jié)之美。
Wan2.1-VACE 還支持視頻背景延展和視頻時長延展。在下圖中,Wan2.1-VACE通過視頻背景延展把女士拉小提琴的特寫還原為原內(nèi)容已暗示的大型演奏場景。
提示詞:一位優(yōu)雅的女士正在熱情地拉著小提琴,她的身后是一整個交響樂團。
通過視頻時長延展,Wan2.1-VACE 呈現(xiàn)了鏡頭后方的越野騎手跑到前方小坡的畫面。
提示詞:越野摩托車比賽場景,一個裝備齊全的運動員騎著摩托車登上土坡,車輪濺起高高的泥土。
綜合來看,上述案例呈現(xiàn)了 Wan2.1-VACE 多任務(wù)能力之間的有機關(guān)系。圖像參考和局部編輯提供基礎(chǔ)刪除、替換、添加新元素的能力,視頻重繪則控制新元素的具體呈現(xiàn),不同模態(tài)各有所長,視頻背景延展和視頻時長延展在空間、時間上提供了更加開放的想象空間或還原完整場景。
所以要發(fā)揮 Wan2.1-VACE 的全部優(yōu)勢,應(yīng)該探索各種原子能力的自由組合,只有這樣才能實現(xiàn)生產(chǎn)級別的場景落地,而 Wan2.1-VACE 確實能夠很好地支持這一點。
比如在以下這個多鏡頭宣傳片中,Wan2.1-VACE 自由地組合了多種能力來實現(xiàn)每個鏡頭的需求,同時很好地保持了鏡頭間的人物一致性。
比如這個片段組合了畫面延展、姿態(tài)遷移、圖片參考,用畫面延展擴大窗戶,用姿態(tài)延展讓女生做伸展運動,用圖片參考加入更多小鳥。
這個片段組合了局部編輯和圖片參考,用圖片參考將小象娃娃通過“任意門”瞬間穿梭到園區(qū)場景標記好的局部區(qū)域中。
這個片段組合了運動控制和圖像參考,讓小象從地上浮起然后一飛沖天。
這個片段組合了局部編輯、姿態(tài)遷移和圖片參考,用姿態(tài)遷移控制女孩的步態(tài),通過局部編輯和圖片參考給女孩快速更換服裝。
最后,這個片段組合了姿態(tài)遷移和圖片參考,將專業(yè)滑板運動姿態(tài)賦予給女孩,結(jié)合不同的景觀圖片,使女孩踩著滑板車在城市、沙漠、大海中穿梭。
如此給力的生產(chǎn)級工具,開發(fā)者怎能不愛?從通義萬相目前的成績就可見一斑。
自今年 2 月以來,通義萬相已先后開源文生視頻模型、圖生視頻模型和首尾幀生視頻模型,目前在開源社區(qū)的下載量已超 330 萬,在 GitHub 上斬獲超 1.1w star,是同期最受歡迎的視頻生成模型。預計 Wan2.1-VACE 也將帶來新一波社區(qū)活躍。
將這么多的能力有機融合到一個模型,通義萬相是怎么做到的?為解答該問題,知危跟通義萬相團隊進行了交流。
通義萬相向知危表示,要實現(xiàn)這一點,其實會面臨不少挑戰(zhàn):
- 多任務(wù)統(tǒng)一建模:如何在單一架構(gòu)中兼容生成、編輯等多種任務(wù),并保持高性能。
- 細粒度控制:如何解耦視頻中的內(nèi)容( 物體 )、運動( 時序 )、風格( 外觀 )等屬性,實現(xiàn)獨立編輯。
- 數(shù)據(jù)與訓練復雜性:多任務(wù)的數(shù)據(jù)構(gòu)建需要按照任務(wù)的特性分別進行處理,并組建出高質(zhì)量的訓練集。
在建模部分,VCU ( Video Condition Unit ) 是 Wan2.1-VACE 實現(xiàn)全面可控編輯的核心模塊,“ VCU 的使用是實現(xiàn)任務(wù)統(tǒng)一的源頭,也是區(qū)別于其他專有模型僅支持特定任務(wù)的不同之處?!?VCU 的關(guān)鍵性體現(xiàn)在:
- 統(tǒng)一表征:將視頻生成和編輯的輸入定義為輸入視頻、輸入掩碼、參考圖像等;
- 多任務(wù)統(tǒng)一:VCU作為中間層,隔離任務(wù)差異( 如生成或編輯 ),以實現(xiàn)不同任務(wù)的表征注入到生成模塊中。
- 細粒度控制:通過VCU的解耦設(shè)計,可實現(xiàn)對任務(wù)區(qū)分和精細化控制。
簡單解釋一下 VCU 的構(gòu)成。實際上,Wan2.1-VACE 的多任務(wù)能力可以表示為三種模態(tài)數(shù)據(jù)的統(tǒng)一輸入接口,這三種模態(tài)即文本提示、參考圖以及 mask。
根據(jù)多種視頻任務(wù)能力對三種多模態(tài)輸入的要求,將其分為四類:
- 文本轉(zhuǎn)視頻生成 ( T2V ) ;
- 參考圖像生成 ( R2V ) ;
- 視頻到視頻編輯 ( V2V ) ,即視頻重繪;
- 蒙版視頻到視頻編輯 ( MV2V ) ,即視頻局部編輯。
VCU 用統(tǒng)一的表示方式,將以上四類任務(wù)的輸入都表示為相同的三元組形式 ( T,F,M ) ,T 為文本提示,F(xiàn) 為參考圖像或上下文幀,M 為 mask:
- 在 T2V 中,不需要上下文幀或 mask,每個幀默認為 0 輸入值,每個 mask 默認為 1 輸入值,表示所有這些 0 值幀像素都將重新生成。
- 對于 R2V,在默認 0 值幀序列前插入額外的參考幀( 比如人臉、物體等 ),mask 序列中,默認幀的 mask 為全 1,參考幀的 mask 為全 0,意味著默認幀應(yīng)重新生成,參考幀應(yīng)保持不變。
- 在 V2V 中,上下文幀是輸入視頻幀( 比如深度、灰度、姿態(tài)等 ),mask 默認為 1,表明輸入視頻幀都將重新生成。
- 對于 MV2V,上下文幀和 mask 都是必需的,mask 部分為 0、部分為 1,mask 為 1 的幀將重新生成。
由此,便將不同的任務(wù)統(tǒng)一到了一個模型中,如下圖所示。
VCU:四類視頻處理任務(wù)的統(tǒng)一輸入表示。
圖源:https://arxiv.org/pdf/2503.07598
VCU 的結(jié)構(gòu)非常簡潔漂亮,但也是基于團隊長期的技術(shù)積累演化而來,通義萬相表示,“ ACE 和 ACE++ 是我們在圖像領(lǐng)域進行統(tǒng)一生成和編輯的最初嘗試,并取得了不錯的效果。而 VACE 也是 ACE 在視頻領(lǐng)域中的靈活運用,其中 VCU 的構(gòu)建思想也是從圖像中的統(tǒng)一輸入模塊演變而來?!?/p>
而要實現(xiàn) VCU 本身,其實也會有一些挑戰(zhàn),通義萬相表示,“ VACE 采用了在輸入側(cè)進行統(tǒng)一的策略 ( early fusion ),不同于使用額外的編碼模塊對不同的輸入模態(tài)進行處理,我們以簡單、統(tǒng)一為設(shè)計原則。其核心挑戰(zhàn)在于要使用單一模型來實現(xiàn)與專有模型相比的效果。”
構(gòu)建多任務(wù)模型對數(shù)據(jù)質(zhì)量的要求也更高,通義萬相團隊需要對視頻進行第一幀標記,比如圖像內(nèi)有哪些物體,并進行位置框選和定位,去除目標區(qū)域過小或過大的視頻,還需要在時間維度上計算目標是否長期出現(xiàn)在視頻中,避免目標過小或消失帶來的異常場景。
為了讓模型適應(yīng)靈活的能力組合,通義萬相團隊將所有任務(wù)隨機組合進行訓練。對于所有涉及 mask 的操作,執(zhí)行任意粒度的增強,以滿足各種粒度的局部生成需求。
訓練過程則采用分階段、從易到難的方法。通義萬相團隊先在預訓練文本轉(zhuǎn)視頻模型的基礎(chǔ)上,專注 mask 修復和擴展等任務(wù)。接下來,逐步從單輸入?yún)⒖紟^渡到多輸入?yún)⒖紟?,以及從單一任?wù)過渡到復合任務(wù)。最后,使用更高質(zhì)量的數(shù)據(jù)和更長的序列來微調(diào)模型質(zhì)量。這使得模型訓練的輸入可以適應(yīng)任意分辨率、動態(tài)時長和可變幀率。
近幾年的視頻生成 AI 模型經(jīng)歷了飛速演進,完成了從 “ 能生成 ” 到 “ 能駕馭生成 ” 的飛躍。這其中,多模態(tài)輸入的演進體現(xiàn)了從 “ 一把鑰匙開一把鎖 ” 到 “ 多線索協(xié)同指揮 ” 的轉(zhuǎn)變。
不同模態(tài)各有所長:文本給出抽象語義,圖像提供外觀細節(jié),姿態(tài)/草圖限定結(jié)構(gòu),光流約束運動連續(xù)性,而參考幀確保身份恒定等等。這一歷程充分展現(xiàn)了AI視頻的潛力:通過不斷引入新的控制維度,人類將不斷增強讓AI按意圖創(chuàng)造視頻的能力。
融合不同控制維度,視頻生成模型開始具備綜合理解與決策的能力,能夠在復雜條件下平衡各方需求。這不僅極大提高了生成的可編輯性,也使模型更適應(yīng)真實創(chuàng)作場景下多種素材混合作用的需求。
可以看出,Wan2.1-VACE 是完成這一轉(zhuǎn)變的關(guān)鍵成果。
展望未來,如何進一步提高生成現(xiàn)實度、擴展時長、增強交互性( 例如實時對生成視頻進行調(diào)整 ),以及結(jié)合物理和 3D 知識避免失真,將是持續(xù)的研究重點。但可以肯定的是,可編輯、多條件的視頻生成范式已基本確立,并將成為數(shù)字媒介生產(chǎn)的新范式。
而這種生產(chǎn)范式,或許可以在未來徹底改變視頻后期制作的工作流,顛覆掉視頻制作工作人員手中的 PR、AE 以及 Final cut 等工具。
撰文:流大古 編輯:大餅
本文由人人都是產(chǎn)品經(jīng)理作者【知?!?,微信公眾號:【知危】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!