大模型在金融領(lǐng)域落地會遇到哪些坑?
大模型的熱度已經(jīng)高了很久了,但在具體的行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時,會遇到不少的問題。這篇文章,作者分享了自己在金融領(lǐng)域的落地經(jīng)驗(yàn),希望能幫到大家。
一、我們做了哪些場景?
- 客服場景下的會話小結(jié)
- 知識庫的智能搜索:LLM+向量知識庫+ES兜底
- 知識實(shí)時智能推薦
- 代碼輔助
二、遇到了哪些坑
1. 會話小結(jié)
大模型應(yīng)用準(zhǔn)確率怎么提升?
大模型不像是傳統(tǒng)的nlp,雖然大模型準(zhǔn)確率起點(diǎn)高,但是不像nlp可以依靠業(yè)務(wù)的標(biāo)注數(shù)據(jù)進(jìn)行優(yōu)化,那么大模型的云應(yīng)用調(diào)用方(不做本地化和finetun情況下)在業(yè)務(wù)應(yīng)用中如何進(jìn)行模型效果的評價和業(yè)務(wù)使用效果的優(yōu)化?就成了一道考題。
剛上線你會發(fā)現(xiàn)準(zhǔn)確率在60%左右,業(yè)務(wù)想要繼續(xù)提升,部分算法同學(xué)會說模型能力是調(diào)用別人的,無法進(jìn)行數(shù)據(jù)回流迭代,我也沒辦法?這時候要擺爛還是繼續(xù)想辦法努力?
幻覺問題:gpt針對短對話的小結(jié)會進(jìn)行自我創(chuàng)造(亂編),這個在業(yè)務(wù)上是很難被接受的。
實(shí)時場景的時延問題:調(diào)大模型的云應(yīng)用尤其是gpt,每次請求到返回的時間問題無法優(yōu)化。
對于坐席輔助的場景時延要求極高,會話小結(jié)是為了幫助人工自動寫事件小結(jié)的,超過5s的小結(jié)基本就失去了幫助坐席減少話后時長的作用,但是即使在只調(diào)用一次gpt進(jìn)行小結(jié)的情況下,平均時延也在10s左右
業(yè)務(wù)上評價會話小結(jié)的指標(biāo)為:要素完備性、要素準(zhǔn)確率、業(yè)務(wù)接受率。如對會話小結(jié)這幾個方面要求較高(細(xì)分場景業(yè)務(wù)細(xì)則,專有名詞),就需要在通用格式的會話小結(jié)中再加入業(yè)務(wù)要素的補(bǔ)充,則需要多次調(diào)用gpt的場景下,小結(jié)的時延會在30s左右。
超過30s后還要不要繼續(xù)回調(diào)用?前端頁面還要不要進(jìn)行輪詢?
連接調(diào)用不穩(wěn)定會產(chǎn)生漏損:大模型調(diào)用會有失敗的情況,就像大家用chatgpt的應(yīng)用時遇到偶發(fā)的不響應(yīng)的情況,這種情況在c端大家容忍度比較高,但是在b端,尤其是嵌入核心作業(yè)流程的場景下,業(yè)務(wù)對于偶發(fā)的漏損情況比較敏感,小結(jié)的漏損率會在5%左右。
2. 知識庫應(yīng)用
相比坐席輔助,知識庫是一個對AI錯誤容忍率更低的場景,體現(xiàn)在下面的場景:
- 數(shù)據(jù)同步問題:業(yè)務(wù)人員批量新增、刪除、更新知識的時候,后端調(diào)用大模型接口進(jìn)行embedding或者tokenization的時候,如遇到大模型調(diào)用不穩(wěn)定報錯就會導(dǎo)致數(shù)據(jù)同步出現(xiàn)問題。
- 時延、并發(fā)問題:gpt模型的請求數(shù)有限制,針對高并發(fā)(知識庫上千人使用),搜索時延要求高(1-2s)的情況下,會有比較大的壓力,也會有偶發(fā)的大模型調(diào)用出錯的問題。
三、探索解決方案
會話小結(jié):
搭建“NLP+ChatGPT”的雙層模型,確保業(yè)務(wù)效果的同時又能節(jié)省大模型的使用費(fèi)用,針對大模型應(yīng)用在過短對話時會出現(xiàn)“聯(lián)想和想象”的問題,增加了NLP過濾(過濾掉無效對話)
針對大模型業(yè)務(wù)應(yīng)用后準(zhǔn)確率需要提升,但很難靠傳統(tǒng)NLP標(biāo)注的方法進(jìn)行學(xué)習(xí)和訓(xùn)練后迭代的問題,聯(lián)合業(yè)務(wù)進(jìn)行了多輪探討和嘗試,用“業(yè)務(wù)要素完備率+關(guān)鍵要素準(zhǔn)確率+業(yè)務(wù)接受度”進(jìn)行評價,針對業(yè)務(wù)接受度差的部分,詳細(xì)去看原因,并且提煉通用問題進(jìn)行優(yōu)化,再深入業(yè)務(wù)總結(jié)不同場景小結(jié)的業(yè)務(wù)要求規(guī)則并進(jìn)行提煉,融入prompt,準(zhǔn)確率從57%-82%,準(zhǔn)確率的提升只用了2輪數(shù)據(jù)標(biāo)注和反饋(每次100條),大大節(jié)省了傳統(tǒng) NLP項(xiàng)目大樣本數(shù)據(jù)標(biāo)注的工作
針對漏損的進(jìn)行批量補(bǔ)跑;監(jiān)測模型穩(wěn)定性指標(biāo)-小結(jié)平均時延、小結(jié)的漏損率
坐席輔助:
幻覺這個問題我們是用GPT+NLP雙模型來減少亂編,比如客服與客戶對話的AI摘要會預(yù)設(shè)業(yè)務(wù)關(guān)鍵要素,盡量都覆蓋到,且涉及金額、數(shù)量或時間這類都會提取參數(shù)記錄,需要走下個流程分支的會自動生成工單任務(wù)流轉(zhuǎn)…
投訴類會有客訴評分,按歷史接觸的客訴傾向語義點(diǎn)及當(dāng)通電話的音量語速等計(jì)算怒氣值,客服的話術(shù)除了情緒安撫外更多是理解客戶解決其問題
ToC不敢直接用,是做了人工中轉(zhuǎn),比如側(cè)邊欄根據(jù)對話命中意圖或標(biāo)簽自動推薦最優(yōu)話術(shù),按相關(guān)度排序,人工可任選一鍵發(fā)送,也可通過API對接GPT提問后生成話術(shù)
知識庫:
- 不穩(wěn)定的情況利用Kafka進(jìn)行依次消費(fèi),任務(wù)失敗后進(jìn)行告警并且重新跑
- 多個大模型的api并行處理,提高并發(fā)承載力
- 大模型+ES多重召回機(jī)制
此外我們在實(shí)踐過程中也參考了行業(yè)資深大佬關(guān)于向量知識庫應(yīng)用的見解,很有用,引用如下:
首先,向量化就不是唯一解,也不是全場景最優(yōu)解。
**第一,向量化匹配是有能力上限的。**搜索引擎實(shí)現(xiàn)語義搜索已經(jīng)是好幾年的事情了,為什么一直無法上線,自然有他的匹配精確度瓶頸問題。
第二,本質(zhì)是匹配問題(即找到語義相似知識),NLP領(lǐng)域原本也有更優(yōu)美,更高效的方案,只是這波熱潮里,很多以前沒接觸過AI的朋友對之不熟悉罷了。
**第三,甚至不用AI技術(shù),用精確MVSOL、用策略規(guī)則也是一種解法,其至是重要解法。**舊AI時代的產(chǎn)品同學(xué)會非常熟悉這種“用規(guī)則/策略/產(chǎn)品設(shè)計(jì)”來彌補(bǔ)AI能力贏弱的問題一一現(xiàn)在是因?yàn)樾袠I(yè)早期,大家被LLM的能力錯誤迷惑,并且以往產(chǎn)品經(jīng)理的聲音還沒發(fā)出來而已。
**其次,在引入外部知識這個事情上,如果是特別專業(yè)的領(lǐng)域,純粹依賴向量、NLP、策略/規(guī)則在某些場景仍然不奏效。**因?yàn)槟P褪紫刃枰莆漳莻€領(lǐng)域的專業(yè)知識,才能在這樣一個基礎(chǔ)能力的加持下,用向量化等手段來便捷地解決外部知識引入問題。
當(dāng)在模型在基礎(chǔ)知識中缺乏、或有錯誤地學(xué)習(xí)到某些背景知識,即使他有外部知識庫加持也是無效的最后,不要管是不是90%會被解決,對于某個具體業(yè)務(wù)而言,沒有90%,只有100%和0%;
用向量知識庫的補(bǔ)丁策略,這個認(rèn)知很有必要。
1、**把問答域細(xì)化,**給檢索文本分類,打標(biāo)簽處理,以縮小召回目標(biāo)域,提升相關(guān)性。
2、增加問答邏輯。如問題與上下文是否相關(guān),上下文是否可以回答用戶問題的判定邏輯,拒答邏輯。
3、不同種類問答的分流邏輯。打個比方,問百科,問醫(yī)藥,問金融,走不同的回答邏輯。
4、使用多重召回邏輯?;谙蛄?,基于領(lǐng)域向量,基于es,基于編輯距離等,走投票策略。
5、**增加生成前判定,生成后判定邏輯。**前者判定適合是否該回答,是否該拒答,后者判定是否對自己回答有置信。
知識庫的搜索體驗(yàn)優(yōu)化:利用GIO進(jìn)行行為數(shù)據(jù)觀測,P@3、P@5位置的準(zhǔn)確度評估
四、結(jié)束語
大模型的熱度已經(jīng)高了很久了,但我們和各位同行的老師聊,發(fā)現(xiàn)在金融行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時,尤其是要能產(chǎn)生業(yè)務(wù)價值的落地中還是會遇到各種問題,因此希望分享我們遇到的問題和探索的經(jīng)驗(yàn)幫助也在做此類項(xiàng)目的朋友避坑,當(dāng)然我們的方法不一定是最優(yōu)解,如大家有更好的方法和應(yīng)用方向,期望能夠交流!
本文由 @甜甜圈 Tina 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!