a16z認(rèn)為的下一個(gè)千億賽道來了!你知道嗎?
本文將深度剖析這一千億級(jí)賽道的技術(shù)躍遷路徑——從嘴型同步到全身動(dòng)作捕捉,從情緒驅(qū)動(dòng)到實(shí)時(shí)交互;揭示其商業(yè)落地場(chǎng)景如何覆蓋C端UGC創(chuàng)作、B端廣告自動(dòng)化、企業(yè)級(jí)培訓(xùn)分身;并展望未來五年內(nèi)可能突破的五大技術(shù)瓶頸。
昨天的文章里講了兩個(gè)我做AI出海顧問期間遇到的兩個(gè)“比較坑”的產(chǎn)品方向兩個(gè)“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎,今天再來講講我遇到比較好的一個(gè)方向,就是AI視頻這塊。
我合作過5家AI視頻類的公司,有專門做視頻生成的,也有做視頻剪輯的。這兩類算是不同賽道,但隨著技術(shù)進(jìn)步,從產(chǎn)品層面在逐漸融合。
視頻生成賽道比較典型的代表是Pika、Runway等產(chǎn)品,視頻剪輯賽吧典型代表是HeyGen、Opus Clip等產(chǎn)品。生成賽道一開始吸引人的點(diǎn)還是在于新鮮感,而視頻剪輯賽道,從AI虛擬人到長(zhǎng)視頻剪短視頻、再到口型同步,還有直接生成AI UGC以及商品融合等等。
這個(gè)賽道很典型的特征就是市場(chǎng)足夠大,用戶需求很大,而且有不同人群的需求,比如純粹的創(chuàng)作者有創(chuàng)造需求,做增長(zhǎng)的有營(yíng)銷視頻需求,做銷售的有產(chǎn)品介紹視頻需求,甚至在創(chuàng)作者領(lǐng)域還可以再細(xì)分,比如專門面向播客人群,面向二次元人群等等。競(jìng)爭(zhēng)也激烈,絕對(duì)是一個(gè)紅海賽道,但所幸市場(chǎng)足夠大,我合作過的視頻類產(chǎn)品,增長(zhǎng)和營(yíng)收都很不錯(cuò),因?yàn)榇_確實(shí)實(shí)帶來了新的生產(chǎn)力革命,整個(gè)用戶使用是完全閉環(huán)的。
當(dāng)AI不再只是“生成內(nèi)容”,而是“成為內(nèi)容”的一部分,一場(chǎng)內(nèi)容生產(chǎn)的革命就此開啟。
過去幾年,AI已經(jīng)能生成逼真的圖片、視頻和聲音,悄然通過視覺和聽覺的圖靈測(cè)試。但2025年最令人激動(dòng)的突破,毫無疑問是——AI虛擬人(AI Avatar)。
這些不再“恐怖”的AI角色,正以驚人的速度沖出“恐怖谷”,開始全面滲透內(nèi)容創(chuàng)作、廣告營(yíng)銷、企業(yè)培訓(xùn)等多個(gè)領(lǐng)域。這不僅是AI的一次技術(shù)躍遷,更是內(nèi)容產(chǎn)業(yè)的一次范式轉(zhuǎn)變。
今天正好看到a16z發(fā)了最新的一篇關(guān)于AI Avatar虛擬人這方面的報(bào)告,以下是精華信息總結(jié),給大家分享。
一、AI虛擬人研究的演化軌跡:從嘴型匹配到全身互動(dòng)
真正的挑戰(zhàn)不是嘴巴動(dòng)了,而是表情、頭部和身體的每一處細(xì)節(jié)是否同步、自然。
生成一個(gè)“會(huì)說話的臉”并不簡(jiǎn)單。研究人員面臨的最大難題是:語(yǔ)音(phoneme)到嘴型(viseme)的精準(zhǔn)匹配,再加上面部肌肉、眼神、甚至上半身動(dòng)作的自然聯(lián)動(dòng)。
AI虛擬人技術(shù)近幾年突飛猛進(jìn),從最早的CNN、GAN,到NeRF、3DMM、Transformer、Diffusion模型,如今已發(fā)展到基于Transformer的擴(kuò)散模型(DiT)。最新代表作如ByteDance的 OmniHuman 和Hedra的 Character-3,已可實(shí)現(xiàn)逼真的半身/全身動(dòng)作、表情同步、甚至環(huán)境互動(dòng)。
二、AI虛擬人的“真實(shí)工作”:不是玩具,而是生產(chǎn)力工具
AI虛擬人不再只是好玩的技術(shù)展示,而是創(chuàng)造實(shí)際商業(yè)價(jià)值的工具,從消費(fèi)者內(nèi)容創(chuàng)作到企業(yè)培訓(xùn),都能看到它的身影。
1. 普通用戶:人人都能創(chuàng)造角色
一個(gè)圖 + 一段音頻 = 你的AI主播上線了!
從動(dòng)漫角色、游戲人物、虛擬偶像,到播客主持人、AI主播,只需一張圖片+一段語(yǔ)音,用戶就能一鍵生成“會(huì)說話”的視頻。
代表產(chǎn)品如 Hedra,甚至能支持情緒指令控制角色表情;Runway、Viggle 還支持真人視頻驅(qū)動(dòng)角色動(dòng)作。YouTube 上《The Monoverse》系列就是一個(gè)全AI制作的代表作。
更令人期待的是,“實(shí)時(shí)對(duì)話”正逐漸成為現(xiàn)實(shí)。想象一下,未來的語(yǔ)言學(xué)習(xí)不再是冷冰冰的語(yǔ)音助手,而是一個(gè)有表情、有動(dòng)作、有性格的“AI語(yǔ)言老師”。
2. 中小企業(yè):一鍵生成廣告
AI虛擬人最先在廣告領(lǐng)域爆發(fā)。相比傳統(tǒng)廣告拍攝,AI視頻創(chuàng)作無需演員、無需攝影棚、無需剪輯師,幾分鐘搞定一條高質(zhì)量短視頻。
工具如 Creatify、Arcads 支持輸入商品鏈接,自動(dòng)生成腳本、畫面、BGM、AI演員,大幅降低廣告制作門檻。現(xiàn)在,電商、游戲、App廣告中,AI人已經(jīng)隨處可見。
B2B企業(yè)也在跟進(jìn):Yuzu Labs、Vidyard 提供帶AI代言人的視頻外聯(lián)郵件、產(chǎn)品介紹、活動(dòng)宣傳等內(nèi)容。
3. 大型企業(yè):培訓(xùn)與內(nèi)容本地化神器
企業(yè)層面,AI虛擬人應(yīng)用主要集中在:
- 培訓(xùn)視頻自動(dòng)化:如 Synthesia 可生成入職培訓(xùn)、產(chǎn)品教程等內(nèi)容,節(jié)省人力;
- 多語(yǔ)言內(nèi)容本地化:配合 ElevenLabs 的AI語(yǔ)音翻譯,一條視頻可快速轉(zhuǎn)成多國(guó)語(yǔ)言;
- CEO分身:用AI復(fù)刻CEO形象,生成個(gè)性化溝通視頻,擴(kuò)大“高管影響力”。
三、AI虛擬人的技術(shù)組成:不僅是臉,還要有“靈魂”
要打造一個(gè)真正自然的AI虛擬人,需要攻克以下五大模塊:
此外,若要實(shí)現(xiàn)實(shí)時(shí)交互,還需:
- 大腦(記憶與對(duì)話):連接知識(shí)庫(kù)、具備個(gè)性與記憶;
- 低延遲流媒體傳輸:如 LiveKit、Agora 正在攻克該難題。
四、哪些痛點(diǎn)仍待突破??? 五個(gè)令人期待的未來發(fā)展方向
我親測(cè)后發(fā)現(xiàn),這個(gè)領(lǐng)域還有幾個(gè)激動(dòng)人心的發(fā)展方向:
1. 角色變形和場(chǎng)景切換
不再局限于固定造型!想象一下,同一個(gè)角色可以:
- 在視頻中換裝、更換發(fā)型
- 從坐姿切換到站姿
- 從室內(nèi)場(chǎng)景切換到室外
- 擁有多種情緒狀態(tài)和姿勢(shì)供選擇
HeyGen已經(jīng)開始提供這項(xiàng)功能,他們的AI主持人Raul有20種不同的外觀和場(chǎng)景!
2. 更自然的表情和情感
AI能理解內(nèi)容情感,做出合適反應(yīng):
- 說到可怕的事情時(shí)表現(xiàn)出恐懼
- 聽到笑話時(shí)自然微笑
- 講述傷心故事時(shí)流露悲傷
- 根據(jù)語(yǔ)調(diào)自動(dòng)調(diào)整表情強(qiáng)度
Captions新推出的Mirage模型在這方面取得了顯著進(jìn)步,表情范圍和自然度大幅提升。
3. 與現(xiàn)實(shí)世界互動(dòng)
AI角色能”觸摸”周圍物品:
- 在廣告中拿起展示的產(chǎn)品
- 與屏幕上的圖表互動(dòng)
- 指向背景中的特定元素
- 操作虛擬設(shè)備
Topview在這方面已經(jīng)取得了突破,他們開發(fā)了一種流程,允許AI角色在廣告中展示實(shí)際產(chǎn)品。
4. 全身動(dòng)作與手勢(shì)表達(dá)
超越簡(jiǎn)單的上半身動(dòng)作:
- 自然的手勢(shì)配合語(yǔ)音內(nèi)容
- 走動(dòng)、坐下等全身動(dòng)作
- 舞蹈和復(fù)雜動(dòng)作序列
- 根據(jù)性格特點(diǎn)定制動(dòng)作風(fēng)格
目前Argil允許用戶為視頻不同部分選擇不同類型的肢體語(yǔ)言,但未來的技術(shù)將更加自然流暢。
5. 實(shí)時(shí)應(yīng)用的爆發(fā)
延遲和可靠性接近人類水平:
- 與AI醫(yī)生進(jìn)行視頻咨詢
- 與AI導(dǎo)購(gòu)一起瀏覽產(chǎn)品
- 與你最喜歡的電視劇角色視頻聊天
- AI老師提供實(shí)時(shí)反饋和輔導(dǎo)
Tavus的最新模型已經(jīng)能夠?qū)崿F(xiàn)較低延遲的實(shí)時(shí)對(duì)話,我實(shí)際測(cè)試了與AI數(shù)字人的視頻對(duì)話,體驗(yàn)接近真人交流。
五、未來趨勢(shì)預(yù)測(cè):AI虛擬人將成為千億級(jí)賽道
有人用它講故事,有人用它賣貨,有人用它打造自己的“數(shù)字分身”。
隨著底層模型質(zhì)量的顯著提升,AI虛擬人正從“看上去有點(diǎn)怪”走向“你甚至分不清真假”。
我們預(yù)計(jì),內(nèi)容創(chuàng)作型AI的下一個(gè)風(fēng)口就是AI虛擬人。
- 做營(yíng)銷的公司需要能自動(dòng)寫腳本、選演員、生成廣告的視頻平臺(tái);
- 做教育、講故事、創(chuàng)作IP的人,需要能管理角色、場(chǎng)景、剪輯的視頻創(chuàng)作工具;
- 企業(yè)則需要可大規(guī)模部署的培訓(xùn)、溝通、客戶服務(wù)解決方案。
這不再是“AI代替人類”,而是“每個(gè)人都能擁有自己的數(shù)字化表達(dá)分身”。多家公司已經(jīng)在這個(gè)領(lǐng)域嶄露頭角,可能會(huì)誕生多個(gè)十億美元級(jí)別的企業(yè)。關(guān)鍵在于找到特定的用例和目標(biāo)客戶,并圍繞它們構(gòu)建完整的工作流程。
結(jié)語(yǔ):虛擬人類時(shí)代已經(jīng)開始
AI虛擬人不僅僅是一個(gè)“技術(shù)突破”,它代表著一個(gè)全新內(nèi)容表達(dá)方式的誕生。
當(dāng)你可以讓任何形象說話、表達(dá)、互動(dòng),我們正在進(jìn)入一個(gè)人人都是導(dǎo)演、每張圖都能開口說話的時(shí)代。?
本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號(hào):【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!