中文在线а√天堂,国产freesexvideos中国麻豆

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

大模型在金融領(lǐng)域落地會遇到哪些坑？

甜甜圈 Tina

2023-09-29

0 評論 5474 瀏覽 12 收藏

11 分鐘

大模型的熱度已經(jīng)高了很久了，但在具體的行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時，會遇到不少的問題。這篇文章，作者分享了自己在金融領(lǐng)域的落地經(jīng)驗(yàn)，希望能幫到大家。

一、我們做了哪些場景？

客服場景下的會話小結(jié)
知識庫的智能搜索：LLM+向量知識庫+ES兜底
知識實(shí)時智能推薦
代碼輔助

二、遇到了哪些坑

1. 會話小結(jié)

大模型應(yīng)用準(zhǔn)確率怎么提升？

大模型不像是傳統(tǒng)的nlp，雖然大模型準(zhǔn)確率起點(diǎn)高，但是不像nlp可以依靠業(yè)務(wù)的標(biāo)注數(shù)據(jù)進(jìn)行優(yōu)化，那么大模型的云應(yīng)用調(diào)用方（不做本地化和finetun情況下）在業(yè)務(wù)應(yīng)用中如何進(jìn)行模型效果的評價和業(yè)務(wù)使用效果的優(yōu)化？就成了一道考題。

剛上線你會發(fā)現(xiàn)準(zhǔn)確率在60%左右，業(yè)務(wù)想要繼續(xù)提升，部分算法同學(xué)會說模型能力是調(diào)用別人的，無法進(jìn)行數(shù)據(jù)回流迭代，我也沒辦法？這時候要擺爛還是繼續(xù)想辦法努力？

幻覺問題：gpt針對短對話的小結(jié)會進(jìn)行自我創(chuàng)造（亂編），這個在業(yè)務(wù)上是很難被接受的。

實(shí)時場景的時延問題：調(diào)大模型的云應(yīng)用尤其是gpt，每次請求到返回的時間問題無法優(yōu)化。

對于坐席輔助的場景時延要求極高，會話小結(jié)是為了幫助人工自動寫事件小結(jié)的，超過5s的小結(jié)基本就失去了幫助坐席減少話后時長的作用，但是即使在只調(diào)用一次gpt進(jìn)行小結(jié)的情況下，平均時延也在10s左右

業(yè)務(wù)上評價會話小結(jié)的指標(biāo)為：要素完備性、要素準(zhǔn)確率、業(yè)務(wù)接受率。如對會話小結(jié)這幾個方面要求較高（細(xì)分場景業(yè)務(wù)細(xì)則，專有名詞），就需要在通用格式的會話小結(jié)中再加入業(yè)務(wù)要素的補(bǔ)充，則需要多次調(diào)用gpt的場景下，小結(jié)的時延會在30s左右。

超過30s后還要不要繼續(xù)回調(diào)用？前端頁面還要不要進(jìn)行輪詢？

連接調(diào)用不穩(wěn)定會產(chǎn)生漏損：大模型調(diào)用會有失敗的情況，就像大家用chatgpt的應(yīng)用時遇到偶發(fā)的不響應(yīng)的情況，這種情況在c端大家容忍度比較高，但是在b端，尤其是嵌入核心作業(yè)流程的場景下，業(yè)務(wù)對于偶發(fā)的漏損情況比較敏感，小結(jié)的漏損率會在5%左右。

2. 知識庫應(yīng)用

相比坐席輔助，知識庫是一個對AI錯誤容忍率更低的場景，體現(xiàn)在下面的場景：

數(shù)據(jù)同步問題：業(yè)務(wù)人員批量新增、刪除、更新知識的時候，后端調(diào)用大模型接口進(jìn)行embedding或者tokenization的時候，如遇到大模型調(diào)用不穩(wěn)定報錯就會導(dǎo)致數(shù)據(jù)同步出現(xiàn)問題。
時延、并發(fā)問題：gpt模型的請求數(shù)有限制，針對高并發(fā)（知識庫上千人使用），搜索時延要求高（1-2s）的情況下，會有比較大的壓力，也會有偶發(fā)的大模型調(diào)用出錯的問題。

三、探索解決方案

會話小結(jié)：

搭建“NLP+ChatGPT”的雙層模型，確保業(yè)務(wù)效果的同時又能節(jié)省大模型的使用費(fèi)用，針對大模型應(yīng)用在過短對話時會出現(xiàn)“聯(lián)想和想象”的問題，增加了NLP過濾（過濾掉無效對話）

針對大模型業(yè)務(wù)應(yīng)用后準(zhǔn)確率需要提升，但很難靠傳統(tǒng)NLP標(biāo)注的方法進(jìn)行學(xué)習(xí)和訓(xùn)練后迭代的問題，聯(lián)合業(yè)務(wù)進(jìn)行了多輪探討和嘗試，用“業(yè)務(wù)要素完備率+關(guān)鍵要素準(zhǔn)確率+業(yè)務(wù)接受度”進(jìn)行評價，針對業(yè)務(wù)接受度差的部分，詳細(xì)去看原因，并且提煉通用問題進(jìn)行優(yōu)化，再深入業(yè)務(wù)總結(jié)不同場景小結(jié)的業(yè)務(wù)要求規(guī)則并進(jìn)行提煉，融入prompt，準(zhǔn)確率從57%-82%，準(zhǔn)確率的提升只用了2輪數(shù)據(jù)標(biāo)注和反饋（每次100條），大大節(jié)省了傳統(tǒng) NLP項(xiàng)目大樣本數(shù)據(jù)標(biāo)注的工作

針對漏損的進(jìn)行批量補(bǔ)跑；監(jiān)測模型穩(wěn)定性指標(biāo)-小結(jié)平均時延、小結(jié)的漏損率

坐席輔助：

幻覺這個問題我們是用GPT+NLP雙模型來減少亂編，比如客服與客戶對話的AI摘要會預(yù)設(shè)業(yè)務(wù)關(guān)鍵要素，盡量都覆蓋到，且涉及金額、數(shù)量或時間這類都會提取參數(shù)記錄，需要走下個流程分支的會自動生成工單任務(wù)流轉(zhuǎn)…

投訴類會有客訴評分，按歷史接觸的客訴傾向語義點(diǎn)及當(dāng)通電話的音量語速等計(jì)算怒氣值，客服的話術(shù)除了情緒安撫外更多是理解客戶解決其問題

ToC不敢直接用，是做了人工中轉(zhuǎn)，比如側(cè)邊欄根據(jù)對話命中意圖或標(biāo)簽自動推薦最優(yōu)話術(shù)，按相關(guān)度排序，人工可任選一鍵發(fā)送，也可通過API對接GPT提問后生成話術(shù)

知識庫：

不穩(wěn)定的情況利用Kafka進(jìn)行依次消費(fèi)，任務(wù)失敗后進(jìn)行告警并且重新跑
多個大模型的api并行處理，提高并發(fā)承載力
大模型+ES多重召回機(jī)制

此外我們在實(shí)踐過程中也參考了行業(yè)資深大佬關(guān)于向量知識庫應(yīng)用的見解，很有用，引用如下：

首先，向量化就不是唯一解，也不是全場景最優(yōu)解。

**第一，向量化匹配是有能力上限的。**搜索引擎實(shí)現(xiàn)語義搜索已經(jīng)是好幾年的事情了，為什么一直無法上線，自然有他的匹配精確度瓶頸問題。

第二，本質(zhì)是匹配問題(即找到語義相似知識)，NLP領(lǐng)域原本也有更優(yōu)美，更高效的方案，只是這波熱潮里，很多以前沒接觸過AI的朋友對之不熟悉罷了。

**第三，甚至不用AI技術(shù)，用精確MVSOL、用策略規(guī)則也是一種解法，其至是重要解法。**舊AI時代的產(chǎn)品同學(xué)會非常熟悉這種“用規(guī)則/策略/產(chǎn)品設(shè)計(jì)”來彌補(bǔ)AI能力贏弱的問題一一現(xiàn)在是因?yàn)樾袠I(yè)早期，大家被LLM的能力錯誤迷惑，并且以往產(chǎn)品經(jīng)理的聲音還沒發(fā)出來而已。

**其次，在引入外部知識這個事情上，如果是特別專業(yè)的領(lǐng)域，純粹依賴向量、NLP、策略/規(guī)則在某些場景仍然不奏效。**因?yàn)槟Ｐ褪紫刃枰莆漳莻€領(lǐng)域的專業(yè)知識，才能在這樣一個基礎(chǔ)能力的加持下，用向量化等手段來便捷地解決外部知識引入問題。

當(dāng)在模型在基礎(chǔ)知識中缺乏、或有錯誤地學(xué)習(xí)到某些背景知識，即使他有外部知識庫加持也是無效的最后，不要管是不是90%會被解決，對于某個具體業(yè)務(wù)而言，沒有90%，只有100%和0%；

用向量知識庫的補(bǔ)丁策略，這個認(rèn)知很有必要。

1、**把問答域細(xì)化，**給檢索文本分類，打標(biāo)簽處理，以縮小召回目標(biāo)域，提升相關(guān)性。

2、增加問答邏輯。如問題與上下文是否相關(guān)，上下文是否可以回答用戶問題的判定邏輯，拒答邏輯。

3、不同種類問答的分流邏輯。打個比方，問百科，問醫(yī)藥，問金融，走不同的回答邏輯。

4、使用多重召回邏輯?；谙蛄?，基于領(lǐng)域向量，基于es，基于編輯距離等，走投票策略。

5、**增加生成前判定，生成后判定邏輯。**前者判定適合是否該回答，是否該拒答，后者判定是否對自己回答有置信。

知識庫的搜索體驗(yàn)優(yōu)化：利用GIO進(jìn)行行為數(shù)據(jù)觀測，P@3、P@5位置的準(zhǔn)確度評估

四、結(jié)束語

大模型的熱度已經(jīng)高了很久了，但我們和各位同行的老師聊，發(fā)現(xiàn)在金融行業(yè)業(yè)務(wù)落地的應(yīng)用還是在進(jìn)行時，尤其是要能產(chǎn)生業(yè)務(wù)價值的落地中還是會遇到各種問題，因此希望分享我們遇到的問題和探索的經(jīng)驗(yàn)幫助也在做此類項(xiàng)目的朋友避坑，當(dāng)然我們的方法不一定是最優(yōu)解，如大家有更好的方法和應(yīng)用方向，期望能夠交流！

本文由 @甜甜圈 Tina 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App