国产精品v欧美精品∨日韩 ,久久精品中文字幕有码

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

交互型數(shù)字人發(fā)展現(xiàn)狀

樂(lè)活小宇宙

2024-03-05

0 評(píng)論 2159 瀏覽 11 收藏

8 分鐘

作為AI的應(yīng)用場(chǎng)景之一，數(shù)字人在市場(chǎng)上的普及度比大模型高很多?？梢宰鳛橹悄芸头獯饦I(yè)務(wù)問(wèn)題或者辦理業(yè)務(wù)，推薦產(chǎn)品。那這個(gè)行業(yè)現(xiàn)在發(fā)展如何了？我們來(lái)看看作者做的分析。

交互型數(shù)字人是指能與人類(lèi)進(jìn)行實(shí)時(shí)交互對(duì)話的數(shù)字人，可以作為智能客服，解答業(yè)務(wù)問(wèn)題或者辦理業(yè)務(wù)，推薦產(chǎn)品。中國(guó)電信app首頁(yè)的AI筱翼，是一種常見(jiàn)的數(shù)字人智能客服，電信掌上營(yíng)業(yè)廳功能很多，部分功能不容易找到，通過(guò)數(shù)字人語(yǔ)音交互可以直達(dá)業(yè)務(wù)頁(yè)面。talkie對(duì)話界面也有一個(gè)形象，但是形象在對(duì)話中一直是靜態(tài)的，不屬于交互型數(shù)字人。

一、交互型數(shù)字人基本原理

可交互的數(shù)字人，主要原理是先通過(guò)照片或視頻生成數(shù)字人，對(duì)話時(shí)通過(guò)asr識(shí)別用戶輸入的問(wèn)題，然后問(wèn)題被發(fā)送給數(shù)字人大腦（傳統(tǒng)bot知識(shí)庫(kù)或大模型）獲取答案，再通過(guò)tts將答案轉(zhuǎn)換成音頻，通過(guò)音頻驅(qū)動(dòng)數(shù)字人的唇部和面部，形成數(shù)字人說(shuō)話視頻，實(shí)現(xiàn)真人與數(shù)字人的對(duì)話。

數(shù)字人的驅(qū)動(dòng)能力包括唇部，面部表情和肢體動(dòng)作。通過(guò)音頻驅(qū)動(dòng)數(shù)字人唇部和面部變化，唇形準(zhǔn)確率現(xiàn)在都比較高，數(shù)字人說(shuō)話時(shí)口型和音頻能對(duì)上，口型不細(xì)看基本沒(méi)有破綻。數(shù)字人的肢體動(dòng)作來(lái)源于提前制作好的動(dòng)作庫(kù)。制作數(shù)字人形象時(shí)，可以定制常用的動(dòng)作，比如點(diǎn)贊、比心、手勢(shì)引導(dǎo)等動(dòng)作，將動(dòng)作和數(shù)字人說(shuō)話內(nèi)容做好關(guān)聯(lián)，數(shù)字人說(shuō)話時(shí)就會(huì)觸發(fā)這些動(dòng)作，肢體動(dòng)作和面部表情使數(shù)字人說(shuō)話時(shí)更接近人類(lèi)，更自然。2D真人數(shù)字人和3D數(shù)字人都可以實(shí)現(xiàn)實(shí)時(shí)對(duì)話，但兩者在數(shù)字人制作渲染、推理方面，是完全不同的技術(shù)路徑。

二、客戶群體

整個(gè)交互型數(shù)字人行業(yè)的服務(wù)對(duì)象，目前還是to B大客戶，主要為銀行/證券/保險(xiǎn)/運(yùn)營(yíng)商/政務(wù)行業(yè)等客戶提供解決方案，最終的落地形式有嵌入手機(jī)app，或線下大屏。目前數(shù)字人客服的滲透率還不高，即便金融行業(yè)大公司也還處于數(shù)字人應(yīng)用的探索和試點(diǎn)階段。

在生活中我們能體驗(yàn)到的，有中國(guó)電信app上的AI筱翼，部分城市比如深圳的一些地鐵站有數(shù)字人大屏，承擔(dān)真人客服的功能，銀行線下網(wǎng)點(diǎn)的大屏數(shù)字人大堂經(jīng)理。項(xiàng)目?jī)r(jià)格一般可達(dá)百萬(wàn)級(jí)，市場(chǎng)上有數(shù)字人制作/驅(qū)動(dòng)/NLP和語(yǔ)音全鏈路能力的廠商不多，落地一般由多家廠商參與完成。

這次大模型的春風(fēng)也刮到了數(shù)字人領(lǐng)域，在大模型的應(yīng)用暢想中，C端一般會(huì)提到用數(shù)字人作為個(gè)人智能助手或者數(shù)字人陪伴聊天，但是可交互的數(shù)字人目前價(jià)格至少幾萬(wàn)，加上缺少實(shí)際場(chǎng)景，所以市場(chǎng)上to?C的數(shù)字人產(chǎn)品很少。來(lái)畫(huà)出品的AI相框是少見(jiàn)的to?C數(shù)字人，本質(zhì)是提供數(shù)字人形象和聲音定制服務(wù)，通過(guò)一張照片生成數(shù)字人，以相框作為數(shù)字人的硬件載體，實(shí)現(xiàn)實(shí)時(shí)對(duì)話。

圖片來(lái)源于網(wǎng)絡(luò)

三、行業(yè)現(xiàn)狀和挑戰(zhàn)

根據(jù)某研究機(jī)構(gòu)的公開(kāi)數(shù)據(jù)，2022年整個(gè)數(shù)字人行業(yè)的市場(chǎng)規(guī)模將近百億，預(yù)計(jì)2025年將達(dá)到500億左右。個(gè)人推測(cè)交互型數(shù)字人目前的市場(chǎng)規(guī)模數(shù)十億。

1、數(shù)字人智能客服對(duì)客戶的真實(shí)價(jià)值有待檢驗(yàn)。

目前數(shù)字人客服對(duì)客戶來(lái)說(shuō)，屬于錦上添花，有時(shí)只是一個(gè)噱頭，還不能替代真人客服降本增效。數(shù)字人是一個(gè)交互入口，真正能為客戶解決的實(shí)際問(wèn)題有限。

在業(yè)務(wù)咨詢場(chǎng)景，傳統(tǒng)的NLP只能進(jìn)行封閉域?qū)υ?，被調(diào)侃為人工智障；現(xiàn)在基于大模型和本地知識(shí)庫(kù)，涉及業(yè)務(wù)問(wèn)題基于提供的知識(shí)庫(kù)回答，非業(yè)務(wù)問(wèn)題用大模型回答，數(shù)字人確實(shí)智能了不少，但幻覺(jué)問(wèn)題并未完全解決，部分敏感場(chǎng)合如果編造答案，對(duì)企業(yè)有較大的負(fù)面影響。而在業(yè)務(wù)辦理場(chǎng)景，不論是之前的文本智能客服，還是現(xiàn)在的數(shù)字人客服，基本沒(méi)有辦理復(fù)雜業(yè)務(wù)的能力。

2、實(shí)時(shí)交互成本高

客服場(chǎng)景一般使用真人數(shù)字人，需要云端渲染，每次回答都需要實(shí)時(shí)生成一個(gè)視頻，再結(jié)合實(shí)際客服的高并發(fā)場(chǎng)景，導(dǎo)致實(shí)時(shí)交互消耗的服務(wù)器資源多，交互成本高。

3、數(shù)字人的表現(xiàn)力，跟真人相比比較生硬。

當(dāng)前數(shù)字人表情和動(dòng)作，2D真人類(lèi)型的靠錄制，沒(méi)錄制過(guò)的表情和動(dòng)作數(shù)字人不會(huì)做。3D類(lèi)型的靠動(dòng)畫(huà)師手動(dòng)制作，生動(dòng)性依賴動(dòng)畫(huà)師的專(zhuān)業(yè)水平，手動(dòng)制作高質(zhì)量的動(dòng)作需要的時(shí)間長(zhǎng)。有限的動(dòng)作和表情，讓數(shù)字人在播報(bào)大量?jī)?nèi)容時(shí)，顯得動(dòng)作重復(fù)單調(diào)，缺乏情感。

好消息是大模型在視頻生成上不斷進(jìn)步突破。阿里最新的emo模型效果看起來(lái)很經(jīng)驗(yàn)，可以根據(jù)音頻，直接生成頭部運(yùn)動(dòng)自然，和面部表情自然的說(shuō)話視頻。這一新技術(shù)的應(yīng)用，可以顯著提升數(shù)字人對(duì)話時(shí)的自然程度，解決數(shù)字人表現(xiàn)生硬的問(wèn)題。非常期待能盡快應(yīng)用到數(shù)字人領(lǐng)域。

四、結(jié)語(yǔ)

交互型數(shù)字人的智能程度取決于背后的大模型，目前垂直行業(yè)大模型的落地應(yīng)用還需要時(shí)間。另外受限于實(shí)時(shí)交互成本高，以及數(shù)字人表現(xiàn)生硬問(wèn)題，交互型數(shù)字人還處于行業(yè)早期，實(shí)際應(yīng)用不多。隨著大模型技術(shù)的不斷發(fā)展，相信這些問(wèn)題會(huì)不斷改善，數(shù)字人會(huì)真正走進(jìn)我們的生活，為行業(yè)和個(gè)人賦能。

本文由 @樂(lè)活小宇宙原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App