大語(yǔ)言模型實(shí)現(xiàn)智能客服知識(shí)庫(kù)文檔數(shù)據(jù)提取功能
智能客服的知識(shí)庫(kù)有兩類:機(jī)器人知識(shí)庫(kù)和坐席知識(shí)庫(kù),分別是為機(jī)器人和坐席進(jìn)行服務(wù)時(shí),提供數(shù)據(jù)的支撐。如何通過(guò)大語(yǔ)言模型,讓企業(yè)的文檔可批量上傳,無(wú)需更多的整理,直接轉(zhuǎn)化為有效的QA,供座席和機(jī)器人直接調(diào)用呢?本文作者對(duì)此進(jìn)行了分析,一起來(lái)看一下吧。
上一篇提到了《大語(yǔ)言模型實(shí)現(xiàn)智能客服知識(shí)庫(kù)自動(dòng)擴(kuò)寫功能》,這次談下知識(shí)庫(kù)文檔數(shù)據(jù)提取功能的實(shí)現(xiàn)。
一、產(chǎn)品場(chǎng)景和需求
我們知道智能客服的知識(shí)庫(kù)有兩類:機(jī)器人知識(shí)庫(kù)和座席知識(shí)庫(kù)。
分別是為機(jī)器人和座席進(jìn)行服務(wù)時(shí),提供數(shù)據(jù)的支撐。
智能客服系統(tǒng)會(huì)標(biāo)配知識(shí)庫(kù)管理功能,常見(jiàn)的形式是樹(shù)狀結(jié)構(gòu),提供分類管理、知識(shí)庫(kù)條目管理,并支持知識(shí)庫(kù)的批量導(dǎo)入導(dǎo)出操作。
使用中,企業(yè)需要經(jīng)常性地維護(hù)管理知識(shí)庫(kù)內(nèi)容,將企業(yè)已有知識(shí)內(nèi)容文檔上傳,但如果是將原文件上傳,則系統(tǒng)最多能支持預(yù)覽功能,使用者在操作界面只能點(diǎn)擊打開(kāi)全文檢索。而如果是機(jī)器人知識(shí)庫(kù),直接上傳文檔是不可用的,需要操作者手工整理文檔中的內(nèi)容為機(jī)器人標(biāo)準(zhǔn)問(wèn)答對(duì)。
以上是目前絕大多數(shù)主流產(chǎn)品的使用情況。
大語(yǔ)言模型來(lái)了,我們提出的需求很簡(jiǎn)單,所有企業(yè)的文檔可以批量上傳,無(wú)需更多的整理,直接可自動(dòng)轉(zhuǎn)化為有效的QA,供座席和機(jī)器人直接調(diào)用。
二、知識(shí)提取實(shí)測(cè):PDF文檔內(nèi)容提取
已有諸多產(chǎn)品使用大語(yǔ)言模型實(shí)現(xiàn)PDF文檔數(shù)據(jù)提取,我們先看下已實(shí)現(xiàn)的產(chǎn)品的效果。
1. ChatPDF
https://www.chatpdf.com/
界面特別干凈,上傳pdf,然后conversation。
為了測(cè)試,我扔了一份100頁(yè)的產(chǎn)品手冊(cè)進(jìn)來(lái)。
上傳速度很快,最關(guān)鍵的時(shí),對(duì)話響應(yīng)也非常的快。
對(duì)文檔內(nèi)容的解析很準(zhǔn)確,包括一些隱藏在內(nèi)部的知識(shí)點(diǎn)也可以快速搜索找到。
2. Pandagpt
https://www.pandagpt.io/
網(wǎng)絡(luò)問(wèn)題,訪問(wèn)有點(diǎn)慢,但是這個(gè)對(duì)話的樣式,一言難盡,沒(méi)有一個(gè)版塊不是互相遮擋的,強(qiáng)迫癥死敵。
響應(yīng)速度差一些,問(wèn)題回答基本到位,相比ChatPDF,略顯啰嗦。
3. typeset
https://typeset.io/
主打論文檢索的typeset,也支持pdf文檔解讀。
上傳、對(duì)話響應(yīng)都十分緩慢,對(duì)話的效果非常不OK,很多知識(shí)點(diǎn)無(wú)法解讀,一律回復(fù)無(wú)法找到這個(gè)問(wèn)題的答案。
三、自研框架的選擇
基于OpenAIEmbeddings,官方給出了基于embeddings檢索來(lái)解決GPT無(wú)法處理長(zhǎng)文本和最新數(shù)據(jù)的問(wèn)題的實(shí)現(xiàn)方案。
參考:https://www.datalearner.com/blog/1051681543488862
也可以使用LangChain框架,參考以下內(nèi)容實(shí)現(xiàn)效果。
參考:
ChatGPT怎么建立私有知識(shí)庫(kù)?:https://www.zhihu.com/question/596838257/answer/3004754396
利用LangChain和國(guó)產(chǎn)大模型ChatGLM實(shí)現(xiàn)基于本地知識(shí)庫(kù)的自動(dòng)問(wèn)答:https://www.zhihu.com/zvideo/1630964532179812353
另外除了從文檔中抓取數(shù)據(jù),從指定網(wǎng)站URL抓取數(shù)據(jù),實(shí)現(xiàn)智能客服外部知識(shí)庫(kù),可以借助ChatGPT寫Python代碼,PythonBeautiful Soup庫(kù)的實(shí)現(xiàn)方式很成熟。
四、智能客服產(chǎn)品設(shè)計(jì)要點(diǎn)
回到智能客服產(chǎn)品場(chǎng)景中,產(chǎn)品設(shè)計(jì)使用中要考慮的問(wèn)題。
1)功能分割
建議為保持原知識(shí)庫(kù)管理系統(tǒng)的完整,可增加單獨(dú)的大語(yǔ)言模型知識(shí)庫(kù),避免SaaS產(chǎn)品原來(lái)的企業(yè)使用體驗(yàn)和數(shù)據(jù)庫(kù)內(nèi)容產(chǎn)生交叉影響。
2)書架式管理
模型知識(shí)庫(kù)同樣支持分類管理,方便使用者管理文檔庫(kù),能夠快速檢索文檔名稱和內(nèi)容。
提供增刪改查,預(yù)覽、批量上傳刪除等操作。并支持以QA問(wèn)答對(duì)的方式全文展示,使用者可以了解到本文檔新增的有效文檔數(shù)據(jù)有多少內(nèi)容。
3)提供測(cè)試對(duì)話工具
模型庫(kù)中可內(nèi)置對(duì)話測(cè)試工具,供使用者先行進(jìn)行知識(shí)點(diǎn)的維護(hù)管理。
4)知識(shí)庫(kù)編輯擴(kuò)展
提供插件、支持在線改寫編輯,重新讀取。
減少重復(fù)上傳給使用者帶來(lái)的挫敗感。
5)知識(shí)庫(kù)關(guān)聯(lián)
已測(cè)試完成的大模型知識(shí)庫(kù),可允許使用者關(guān)聯(lián)發(fā)布到座席或者機(jī)器人知識(shí)庫(kù)中,提供對(duì)話數(shù)據(jù)的擴(kuò)展。
如果是機(jī)器人知識(shí)庫(kù),可以在機(jī)器人模板設(shè)置關(guān)聯(lián),允許流程中各節(jié)點(diǎn)選擇性調(diào)用對(duì)應(yīng)的知識(shí)庫(kù),這樣也不會(huì)破壞原有流程的知識(shí)庫(kù)體系,增強(qiáng)了部分節(jié)點(diǎn)的知識(shí)庫(kù)能力。
對(duì)于交叉引用知識(shí)庫(kù)的節(jié)點(diǎn),權(quán)重可以允許調(diào)節(jié),一般默認(rèn)為機(jī)器人自身知識(shí)庫(kù)為主,大模型知識(shí)庫(kù)輔助。
6)反饋機(jī)制
文本對(duì)話機(jī)器人的訪客端點(diǎn)踩、座席的手工點(diǎn)踩,和語(yǔ)音機(jī)器人的手工標(biāo)記無(wú)效問(wèn)答,都可以幫助反饋大模型知識(shí)庫(kù)的效果。
以數(shù)據(jù)報(bào)表方式展示,手工或自動(dòng)進(jìn)行知識(shí)維護(hù)。
7)功能開(kāi)關(guān)
最后,仍然是設(shè)置功能性開(kāi)關(guān),并關(guān)聯(lián)到SaaS產(chǎn)品賬戶角色權(quán)限中,可邀請(qǐng)一部分友好客戶星火測(cè)試,不斷迭代優(yōu)化。
當(dāng)然,以上情況,也不限于智能客服產(chǎn)品范疇,一些需要知識(shí)管理的場(chǎng)景中,都可以借鑒。
最后還是放出業(yè)內(nèi)大廠們已實(shí)現(xiàn)的產(chǎn)品截圖加以說(shuō)明:
Z廠的企業(yè)資料庫(kù),關(guān)聯(lián)大語(yǔ)言模型自動(dòng)搜索
T廠的大模型文檔知識(shí)抽取和“即搜即問(wèn)”
期待更多更好的應(yīng)用落地,有對(duì)這方面內(nèi)容感興趣的朋友,歡迎隨時(shí)聯(lián)系。
本文由 @通信產(chǎn)品的那些事 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
你還可以試試T廠的TextIn的智能文檔抽取,是這個(gè)T廠嗎
求帶,求加入!
t廠,z廠是啥廠
看界面截圖logo,Z廠是客服領(lǐng)域的獨(dú)角獸,智齒科技。T廠盲猜是騰訊企點(diǎn)?
”T廠的大模型文檔知識(shí)抽取和“即搜即問(wèn)”截圖,是一個(gè)什么樣的系統(tǒng)?可以介紹下嗎?
辛苦了
又碰到了哈哈哈哈