交互型數(shù)字人發(fā)展現(xiàn)狀
作為AI的應(yīng)用場(chǎng)景之一,數(shù)字人在市場(chǎng)上的普及度比大模型高很多??梢宰鳛橹悄芸头獯饦I(yè)務(wù)問(wèn)題或者辦理業(yè)務(wù),推薦產(chǎn)品。那這個(gè)行業(yè)現(xiàn)在發(fā)展如何了?我們來(lái)看看作者做的分析。
交互型數(shù)字人是指能與人類(lèi)進(jìn)行實(shí)時(shí)交互對(duì)話的數(shù)字人,可以作為智能客服,解答業(yè)務(wù)問(wèn)題或者辦理業(yè)務(wù),推薦產(chǎn)品。中國(guó)電信app首頁(yè)的AI筱翼,是一種常見(jiàn)的數(shù)字人智能客服,電信掌上營(yíng)業(yè)廳功能很多,部分功能不容易找到,通過(guò)數(shù)字人語(yǔ)音交互可以直達(dá)業(yè)務(wù)頁(yè)面。talkie對(duì)話界面也有一個(gè)形象,但是形象在對(duì)話中一直是靜態(tài)的,不屬于交互型數(shù)字人。
一、交互型數(shù)字人基本原理
可交互的數(shù)字人,主要原理是先通過(guò)照片或視頻生成數(shù)字人,對(duì)話時(shí)通過(guò)asr識(shí)別用戶輸入的問(wèn)題,然后問(wèn)題被發(fā)送給數(shù)字人大腦(傳統(tǒng)bot知識(shí)庫(kù)或大模型)獲取答案,再通過(guò)tts將答案轉(zhuǎn)換成音頻,通過(guò)音頻驅(qū)動(dòng)數(shù)字人的唇部和面部,形成數(shù)字人說(shuō)話視頻,實(shí)現(xiàn)真人與數(shù)字人的對(duì)話。
數(shù)字人的驅(qū)動(dòng)能力包括唇部,面部表情和肢體動(dòng)作。通過(guò)音頻驅(qū)動(dòng)數(shù)字人唇部和面部變化,唇形準(zhǔn)確率現(xiàn)在都比較高,數(shù)字人說(shuō)話時(shí)口型和音頻能對(duì)上,口型不細(xì)看基本沒(méi)有破綻。數(shù)字人的肢體動(dòng)作來(lái)源于提前制作好的動(dòng)作庫(kù)。制作數(shù)字人形象時(shí),可以定制常用的動(dòng)作,比如點(diǎn)贊、比心、手勢(shì)引導(dǎo)等動(dòng)作,將動(dòng)作和數(shù)字人說(shuō)話內(nèi)容做好關(guān)聯(lián),數(shù)字人說(shuō)話時(shí)就會(huì)觸發(fā)這些動(dòng)作,肢體動(dòng)作和面部表情使數(shù)字人說(shuō)話時(shí)更接近人類(lèi),更自然。2D真人數(shù)字人和3D數(shù)字人都可以實(shí)現(xiàn)實(shí)時(shí)對(duì)話,但兩者在數(shù)字人制作渲染、推理方面,是完全不同的技術(shù)路徑。
二、客戶群體
整個(gè)交互型數(shù)字人行業(yè)的服務(wù)對(duì)象,目前還是to B大客戶,主要為銀行/證券/保險(xiǎn)/運(yùn)營(yíng)商/政務(wù)行業(yè)等客戶提供解決方案,最終的落地形式有嵌入手機(jī)app,或線下大屏。目前數(shù)字人客服的滲透率還不高,即便金融行業(yè)大公司也還處于數(shù)字人應(yīng)用的探索和試點(diǎn)階段。
在生活中我們能體驗(yàn)到的,有中國(guó)電信app上的AI筱翼,部分城市比如深圳的一些地鐵站有數(shù)字人大屏,承擔(dān)真人客服的功能,銀行線下網(wǎng)點(diǎn)的大屏數(shù)字人大堂經(jīng)理。項(xiàng)目?jī)r(jià)格一般可達(dá)百萬(wàn)級(jí),市場(chǎng)上有數(shù)字人制作/驅(qū)動(dòng)/NLP和語(yǔ)音全鏈路能力的廠商不多,落地一般由多家廠商參與完成。
這次大模型的春風(fēng)也刮到了數(shù)字人領(lǐng)域,在大模型的應(yīng)用暢想中,C端一般會(huì)提到用數(shù)字人作為個(gè)人智能助手或者數(shù)字人陪伴聊天,但是可交互的數(shù)字人目前價(jià)格至少幾萬(wàn),加上缺少實(shí)際場(chǎng)景,所以市場(chǎng)上to?C的數(shù)字人產(chǎn)品很少。來(lái)畫(huà)出品的AI相框是少見(jiàn)的to?C數(shù)字人,本質(zhì)是提供數(shù)字人形象和聲音定制服務(wù),通過(guò)一張照片生成數(shù)字人,以相框作為數(shù)字人的硬件載體,實(shí)現(xiàn)實(shí)時(shí)對(duì)話。
圖片來(lái)源于網(wǎng)絡(luò)
三、行業(yè)現(xiàn)狀和挑戰(zhàn)
根據(jù)某研究機(jī)構(gòu)的公開(kāi)數(shù)據(jù),2022年整個(gè)數(shù)字人行業(yè)的市場(chǎng)規(guī)模將近百億,預(yù)計(jì)2025年將達(dá)到500億左右。個(gè)人推測(cè)交互型數(shù)字人目前的市場(chǎng)規(guī)模數(shù)十億。
1、數(shù)字人智能客服對(duì)客戶的真實(shí)價(jià)值有待檢驗(yàn)。
目前數(shù)字人客服對(duì)客戶來(lái)說(shuō),屬于錦上添花,有時(shí)只是一個(gè)噱頭,還不能替代真人客服降本增效。數(shù)字人是一個(gè)交互入口,真正能為客戶解決的實(shí)際問(wèn)題有限。
在業(yè)務(wù)咨詢場(chǎng)景,傳統(tǒng)的NLP只能進(jìn)行封閉域?qū)υ?,被調(diào)侃為人工智障;現(xiàn)在基于大模型和本地知識(shí)庫(kù),涉及業(yè)務(wù)問(wèn)題基于提供的知識(shí)庫(kù)回答,非業(yè)務(wù)問(wèn)題用大模型回答,數(shù)字人確實(shí)智能了不少,但幻覺(jué)問(wèn)題并未完全解決,部分敏感場(chǎng)合如果編造答案,對(duì)企業(yè)有較大的負(fù)面影響。而在業(yè)務(wù)辦理場(chǎng)景,不論是之前的文本智能客服,還是現(xiàn)在的數(shù)字人客服,基本沒(méi)有辦理復(fù)雜業(yè)務(wù)的能力。
2、實(shí)時(shí)交互成本高
客服場(chǎng)景一般使用真人數(shù)字人,需要云端渲染,每次回答都需要實(shí)時(shí)生成一個(gè)視頻,再結(jié)合實(shí)際客服的高并發(fā)場(chǎng)景,導(dǎo)致實(shí)時(shí)交互消耗的服務(wù)器資源多,交互成本高。
3、數(shù)字人的表現(xiàn)力,跟真人相比比較生硬。
當(dāng)前數(shù)字人表情和動(dòng)作,2D真人類(lèi)型的靠錄制,沒(méi)錄制過(guò)的表情和動(dòng)作數(shù)字人不會(huì)做。3D類(lèi)型的靠動(dòng)畫(huà)師手動(dòng)制作,生動(dòng)性依賴動(dòng)畫(huà)師的專(zhuān)業(yè)水平,手動(dòng)制作高質(zhì)量的動(dòng)作需要的時(shí)間長(zhǎng)。有限的動(dòng)作和表情,讓數(shù)字人在播報(bào)大量?jī)?nèi)容時(shí),顯得動(dòng)作重復(fù)單調(diào),缺乏情感。
好消息是大模型在視頻生成上不斷進(jìn)步突破。阿里最新的emo模型效果看起來(lái)很經(jīng)驗(yàn),可以根據(jù)音頻,直接生成頭部運(yùn)動(dòng)自然,和面部表情自然的說(shuō)話視頻。這一新技術(shù)的應(yīng)用,可以顯著提升數(shù)字人對(duì)話時(shí)的自然程度,解決數(shù)字人表現(xiàn)生硬的問(wèn)題。非常期待能盡快應(yīng)用到數(shù)字人領(lǐng)域。
四、結(jié)語(yǔ)
交互型數(shù)字人的智能程度取決于背后的大模型,目前垂直行業(yè)大模型的落地應(yīng)用還需要時(shí)間。另外受限于實(shí)時(shí)交互成本高,以及數(shù)字人表現(xiàn)生硬問(wèn)題,交互型數(shù)字人還處于行業(yè)早期,實(shí)際應(yīng)用不多。隨著大模型技術(shù)的不斷發(fā)展,相信這些問(wèn)題會(huì)不斷改善,數(shù)字人會(huì)真正走進(jìn)我們的生活,為行業(yè)和個(gè)人賦能。
本文由 @樂(lè)活小宇宙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!