大模型產(chǎn)品真實測評(Chat-GPT3.5、文心大模型3.5、通義千問、星火)
國內(nèi)出了一系列大模型,那么到底哪一個更聰明呢?本文通過一個真實的場景事件來測評一下,一起來看看吧。
由于業(yè)務(wù)升級和迭代的訴求,近來在對國內(nèi)外的大模型產(chǎn)品進行業(yè)務(wù)選型,所以本文通過一個真實的場景事件來測評一下,到底誰更聰明~
企業(yè)業(yè)務(wù)場景:智能客服迭代優(yōu)化
- 語音轉(zhuǎn)文字,(包含多人對話、多方言對話、長語音識別)
- 企業(yè)知識庫錄入,員工通過對話流查詢知識庫信息;
- 客服坐席助手:能夠通過文字判斷出現(xiàn)在的場景,提供具體的指導(dǎo)方案;
以上是粗略的業(yè)務(wù)方的需求進行概括,所以幾個產(chǎn)品進行測評。先不討論技術(shù)指標、數(shù)據(jù)安全性的層面,這些內(nèi)容后續(xù)會逐步分享。
本周正好發(fā)生了一件烏龍事件,我講事件和對話流喂給幾個大模型,看看誰理解了這件事,本文想分享一件非常有趣的案例:
本次測評對象:Chat- GPT 3.5 、文心大模型3.5、通義千問、星火大模型
事件還原:
我原定放在門口的退貨快遞鼠標被保潔阿姨誤認為是垃圾清理走了,我認為是丟件通知了管家?guī)兔聪?,在管家的協(xié)助下,找到保潔阿姨找回快遞,但是丟了一個配件;此時我需要聯(lián)系官方客服確定此時是否支持退貨,or給一個賠償配件的錢,我找保潔進行賠償。
所以這個事情下,我找了某東的官方客服進行情況說明:
需求:給出這種場景下的售后方案;
對話截圖還原:
首先幾家都不支持識別圖片,需要我轉(zhuǎn)文本一遍,所以我就用了微信的這個圖片文字識別能力,刪除了一部分其他明顯不是對話流的文本。
值得比較的問題
1. 對話流投喂拆分段落
拆分準確率:Chat-GPT>通義千問>文心
這塊完全訊飛垮了,沒拆分出來;
文心:按照對話人進行拆分,但是沒有整合,準確率上:有5句分錯人
通義:按照對話人進行拆分和合并,有2句話分錯人
訊飛:完全沒分區(qū)分出來,準確率不做評估
Chat-gpt:區(qū)分對話人進行并進行整理,主動清理了部分雜亂數(shù)據(jù),1句分錯人;
2. 在這個場景中,客戶的訴求是什么呢
對比:Chat-GPT=通義>訊飛>文心
[fancyad id=”45″
我這里更想知道的是這種情形下:
- 配件缺失情況下是否支持退貨,或者可以以補差價的形式進行退貨;
- 急切處理
文心:理解有些偏差,第一點完全不對;表達啰嗦;
Chat- GPT:第一意圖理解準確,表達清晰
通義:意圖理解準確,表達清晰
訊飛:意圖理解準確,沒有結(jié)構(gòu)化表達
3. 這里客戶是需要誰來賠償這個配件的缺失呢
準確率:通義>文心>星火>Chat-GPT
我的本意:
這里肯定是保潔阿姨的責(zé)任,管家找到她拿回快遞這里已經(jīng)是實錘了,但是有可能還有快遞沒有及時取件的鍋。
通義:第一遍問答通用性回答;第二遍場景引導(dǎo)后,回答比較準確;
文心:第一遍問答能夠給出答案,1點點啰嗦;
Chat- GPT:完全沒回答準確,偏離較遠,明顯感覺此時胡扯??
星火:第一遍問答有答案,但是第二段cue到了商家,有點不對勁
4. 請還原一下這個事件的全部鏈路
補充信息:客戶在京東商城購買了鼠標,退貨當(dāng)天12點離開家,將快遞放在門口的鞋柜上,下午15點快遞取件未找到,然后客戶聯(lián)系了管家協(xié)助,同時報警,其他的信息請通過對話流信息還原;
對比:通義>Chat-GPT>星火>文心
文心上來就開寫小作文哈哈哈哈,yy的內(nèi)容真不少。
文心:前面還正常,后面完全當(dāng)個小作文來些了,還有happy ending 哈哈哈哈
Chat-GPT:信息還原完整,有著重關(guān)注客戶的需求
通義:還原準確,并且有參考之前聊的客服的內(nèi)容,單獨將客服的回復(fù)摘出來
星火:還原準確,逐條有時間線
所以對于這個事件,請進行總結(jié),包含事件的發(fā)生的場景還原,責(zé)任方,賠償方、客戶希望的解決方案,客服團隊如何引以為戒優(yōu)化工作流程、以及對于客戶的賠償辦法。
對比:通義>Chat-GPT>星火>文心(這里通義非常優(yōu)秀)
Chat- GPT:回答簡潔,但是我認為對與客服的提升,應(yīng)該要準確的識別客戶的訴求,該加急處理就加急,這次明顯是沒有提供及時的解決方案
通義:回答十分優(yōu)秀,責(zé)任方和客戶意圖理解的都挺到位的,也根據(jù)當(dāng)前會話的主題,提供有效了流程建議
文心:又開始寫小作文了??!他真的好愛寫作文!
星火:基本對吧,但是把商城扯進來了,中等準確
這個事情,你認為客戶是真的報警了還是嚇??头哪?。
這個問題,也是最后想到的。
其實我沒報警,只是想讓客服給我趕緊處理,所以我把這個問題作為本場測驗的最后一問,果然,大家的回答都是一樣的哈哈。
結(jié)論:他們還是不知道我撒謊。
大家看看各自的回復(fù),暫無對比。
文心:不管報不報警,客服好好處理
通義:基本認為報警
星火:和文心差不多
Chat- GPT:基本認為報警
這次的測評事件,我準備下周再找通義的售前聊一下解決方案。
本文由 @Cheese 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!