大模型評(píng)估:指標(biāo)和方法【上】(二)
大模型的發(fā)展愈發(fā)迅猛,評(píng)估卻常常落后一步。本文圍繞多維評(píng)估指標(biāo)與方法論展開(kāi),深入剖析模型性能到底該如何被“看見(jiàn)”。延續(xù)上篇思路,本篇將從實(shí)戰(zhàn)出發(fā),為你補(bǔ)齊模型評(píng)估的“底層邏輯”。
Andrej Karpathy:
“優(yōu)質(zhì)的評(píng)估體系很難搭建,在特斯拉時(shí),我大概要把三分之一的時(shí)間花在數(shù)據(jù)上,三分之一花在評(píng)估上,剩下三分之一花在其他所有事上。評(píng)估體系必須全面、有代表性、高質(zhì)量,還要能衡量梯度信號(hào)(即不能太簡(jiǎn)單,也不能太難),而且有很多細(xì)節(jié)得處理到位?!?/p>
大模型評(píng)估(文本指的是針對(duì)依賴大模型能力構(gòu)建的各類產(chǎn)品的評(píng)估)是一種測(cè)試方式,幫助確保你的AI產(chǎn)品能夠?qū)崿F(xiàn)預(yù)期功能,不論是編寫(xiě)代碼還是處理客服工單。
它與基準(zhǔn)測(cè)試不同,是通過(guò)特定的任務(wù)來(lái)測(cè)試具體的產(chǎn)品,而非比較不同模型的能力。在人工智能產(chǎn)品的整個(gè)生命周期中,從上線前的測(cè)試到上線后的實(shí)時(shí)監(jiān)控,都需要進(jìn)行這類評(píng)測(cè)。
本文聚焦于自動(dòng)化的大模型評(píng)估方法,將介紹從摘要生成到聊天機(jī)器人等各類場(chǎng)景的評(píng)估指標(biāo)與方法。目標(biāo)是為相關(guān)從業(yè)人員(領(lǐng)域?qū)<?、產(chǎn)品經(jīng)理、測(cè)試人員等)提供全面概述,以便之后能輕松為遇到的任何大語(yǔ)言模型相關(guān)任務(wù)選擇合適的評(píng)估方法。
評(píng)估方法主要分為兩類:基于參考答案的評(píng)估和沒(méi)有參考答案的評(píng)估。
- 基于參考答案的評(píng)估方法:通過(guò)精確匹配、詞匯重疊、嵌入相似度或使用大語(yǔ)言模型作為裁判,將模型響應(yīng)與已知的真實(shí)答案進(jìn)行對(duì)比。對(duì)于分類和排序任務(wù)(在檢索增強(qiáng)生成(RAG)中常見(jiàn)),存在特定于任務(wù)的質(zhì)量指標(biāo)。
- 無(wú)參考答案的評(píng)估方法:通過(guò)相關(guān)指標(biāo)和自定義標(biāo)準(zhǔn)評(píng)估輸出,所使用的工具包括正則表達(dá)式、文本統(tǒng)計(jì)、編程驗(yàn)證、自定義大語(yǔ)言模型裁判以及基于機(jī)器學(xué)習(xí)的評(píng)分。
“大模型作為裁判”是最常用的方法之一。通過(guò)提示讓大模型根據(jù)自定義標(biāo)準(zhǔn)對(duì)輸出進(jìn)行評(píng)分,并且能夠處理對(duì)話級(jí)別的評(píng)估。
影響評(píng)估方法和指標(biāo)選擇的因素
1. 是否有參考答案?
要選擇合適的方法和指標(biāo),首先需要確定評(píng)估場(chǎng)景。評(píng)估場(chǎng)景主要分為兩類:
- 基于參考答案的評(píng)估:將輸出結(jié)果與預(yù)定義正確答案進(jìn)行比較。
- 沒(méi)有參考答案的評(píng)估:直接對(duì)輸出進(jìn)行評(píng)估。
基于參考答案的評(píng)估會(huì)將輸出與已知答案進(jìn)行對(duì)比。一旦創(chuàng)建了測(cè)試數(shù)據(jù)集,你的工作就是衡量新的模型輸出與這些已知答案的匹配程度。評(píng)估方法涵蓋從精確匹配到語(yǔ)義比較等多種方式。
無(wú)參考答案的評(píng)估無(wú)需預(yù)定義答案。相反,它會(huì)根據(jù)特定的指標(biāo)或?qū)傩裕ㄈ缯Z(yǔ)氣、結(jié)構(gòu)或安全性)來(lái)評(píng)估輸出。
這種評(píng)估適用于:創(chuàng)建真實(shí)數(shù)據(jù)難度大或不現(xiàn)實(shí)的任務(wù),例如聊天機(jī)器人對(duì)話或創(chuàng)意寫(xiě)作。它也非常適合實(shí)時(shí)監(jiān)控,可對(duì)輸出進(jìn)行實(shí)時(shí)評(píng)分。其中一種常用方法是 “大模型作為裁判”,也就是通過(guò)提示詞讓大模型從多個(gè)維度評(píng)估輸出,例如詢問(wèn) “該響應(yīng)是否有幫助?”
部分評(píng)估方法(如大模型作為裁判、語(yǔ)義相似度)在兩種場(chǎng)景中都適用。然而,許多指標(biāo)僅適用于基于參考答案的場(chǎng)景,因此區(qū)分這兩種情況很重要。
2. 是否存在唯一正確答案?
即使有參考答案,還一個(gè)關(guān)鍵問(wèn)題是:每個(gè)輸入是否存在唯一正確的答案?如果存在,可以使用簡(jiǎn)單直接的確定性評(píng)估方法。這種情況下將實(shí)際結(jié)果與預(yù)期結(jié)果進(jìn)行比較會(huì)很容易。
當(dāng)大模型處理預(yù)測(cè)類任務(wù)時(shí),也可以借助成熟的機(jī)器學(xué)習(xí)任務(wù)相關(guān)指標(biāo),這種情況的出現(xiàn)頻率比我們想象的更高。
即使你的產(chǎn)品并非用于預(yù)測(cè)任務(wù),其部分功能也可能涉及預(yù)測(cè)。例如,聊天機(jī)器人中的意圖識(shí)別可能用于檢測(cè)用戶意圖,對(duì)意圖進(jìn)行分類;或者你可能需要為 RAG 系統(tǒng)解決排序問(wèn)題。這兩種預(yù)測(cè)任務(wù)都有多種評(píng)估指標(biāo)可供選擇。
但并非總是存在唯一的 “完美” 答案。在翻譯、內(nèi)容生成或摘要生成任務(wù)中,存在多個(gè)有效的輸出答案,此時(shí)精確匹配就不再適用。相反,需要使用語(yǔ)義相似度等比較方法來(lái)應(yīng)對(duì)輸出的多樣性。
無(wú)參考答案的評(píng)估也存在類似情況。有時(shí)候我們可以采用客觀方法進(jìn)行評(píng)測(cè),例如運(yùn)行生成的代碼查看其是否能正常運(yùn)行,或驗(yàn)證 JSON 鍵。但在大多數(shù)情況下,都需要處理開(kāi)放的輸出結(jié)果。因此需要找到量化主觀屬性的方法,或設(shè)計(jì)出特定的個(gè)性化指標(biāo)。
大模型評(píng)估方法
現(xiàn)在,我們來(lái)介紹大模型評(píng)估的具體方法和指標(biāo)(文本指的是針對(duì)依賴大模型能力構(gòu)建的各類產(chǎn)品/系統(tǒng)的評(píng)估)。
下面將根據(jù)處理的任務(wù)是否需要參考答案(是/否)對(duì)這些方法進(jìn)行分類,并逐一介紹。
1. 基于參考答案的評(píng)估
基于參考答案的評(píng)估非常適合對(duì)比選型。當(dāng)測(cè)試不同的提示詞、模型或配置時(shí),需要一種能夠清晰的追蹤比較結(jié)果的方法,否則就只是在盲目嘗試各種想法。
評(píng)估過(guò)程本身很簡(jiǎn)單:
1. 將測(cè)試數(shù)據(jù)傳入系統(tǒng)。
2. 生成新的輸出。
3. 將新輸出與參考答案進(jìn)行比較。
有一點(diǎn)需要注意:評(píng)估的效果取決于測(cè)試數(shù)據(jù)集。必須標(biāo)注部分?jǐn)?shù)據(jù)、或者用模型創(chuàng)建合成用例,又或者從生產(chǎn)日志中提取數(shù)據(jù)。
數(shù)據(jù)集需要具有多樣性,并且隨著新用戶場(chǎng)景或問(wèn)題的出現(xiàn),要不斷更新。如果數(shù)據(jù)集規(guī)模過(guò)小且過(guò)于簡(jiǎn)單,評(píng)估結(jié)果將毫無(wú)意義。
1)分類指標(biāo)
一句話總結(jié):這類評(píng)估指標(biāo)有助于量化二元分類和多元分類等任務(wù)在數(shù)據(jù)集上的性能表現(xiàn)。
分類是為每個(gè)輸入預(yù)測(cè)一個(gè)標(biāo)簽,大模型也能直接處理分類任務(wù)。以下是一些例子:
- 意圖識(shí)別:將聊天機(jī)器人的查詢分類為 “退貨” 或 “付款” 等類別。
- 行動(dòng)路由:根據(jù)用戶輸入預(yù)測(cè)正確的下一步操作。
- 工單分類:根據(jù)緊急程度(如高、中、低)或主題(如技術(shù)問(wèn)題、賬單問(wèn)題)為工單添加標(biāo)簽。
- 內(nèi)容審核:標(biāo)記違反政策的內(nèi)容,如垃圾郵件或臟話。
- 評(píng)論標(biāo)注:將反饋標(biāo)記為正面、負(fù)面或中性。
每個(gè)任務(wù)都有預(yù)定義的類別,系統(tǒng)需要將每個(gè)輸入分配到其中一個(gè)類別,如果允許添加多個(gè)標(biāo)簽,有時(shí)也可分配到多個(gè)類別。需要檢查系統(tǒng)在各類輸入上是否能正確分類。
例如,你正在測(cè)試一個(gè)聊天機(jī)器人的意圖識(shí)別效果。首先,你需要準(zhǔn)備一個(gè)包含用戶問(wèn)題及其正確分類的測(cè)試集。然后,將這些問(wèn)題輸入到問(wèn)答應(yīng)用中,并將其判斷的分類結(jié)果與實(shí)際分類結(jié)果進(jìn)行比較。
一個(gè)直觀的指標(biāo)是準(zhǔn)確率,它能告訴你正確分類的比例。但準(zhǔn)確率并不總是最佳衡量標(biāo)準(zhǔn),尤其是在生產(chǎn)數(shù)據(jù)不平衡的情況下。
比如你將用戶查詢分為 “安全” 或 “不安全” 兩類,以避免出現(xiàn)提供法律、醫(yī)療、財(cái)務(wù)建議等風(fēng)險(xiǎn)。在這種情況下,應(yīng)該更關(guān)注以下指標(biāo):
- 召回率:”我們是否捕獲了所有不安全的輸入?”
- 精確率:”被標(biāo)記的不安全查詢中,有多少是真正不安全的?”
這兩個(gè)指標(biāo)能提供全面的視角。例如,高召回率可能表明你捕獲了所有不良輸出。但如果精確率較低,就意味著你錯(cuò)誤地標(biāo)記了太多無(wú)害的查詢。這會(huì)帶來(lái)糟糕的用戶體驗(yàn)!
你可能還需要其他指標(biāo)。例如,在內(nèi)容審核場(chǎng)景中,你的系統(tǒng)可以完美檢測(cè)出 “攻擊性語(yǔ)言”,但卻遺漏了大量 “垃圾郵件”。當(dāng)存在多個(gè)類別時(shí),僅追蹤整體準(zhǔn)確率可能會(huì)掩蓋這種不平衡。
以下是關(guān)鍵分類指標(biāo)的簡(jiǎn)要總結(jié):
| 準(zhǔn)確率(Accuracy) | 正確分類用例的比例。 |
| 精確率(Precision) | 所有預(yù)測(cè)的正例中,實(shí)際是真正例的比例。 |
| 召回率(Recall) | 所有實(shí)際正例中,被發(fā)現(xiàn)的真正例的比例。 |
| F1 分?jǐn)?shù)(F1-Score) | 精確率與召回率的調(diào)和均值。 |
| 各類別指標(biāo)(Per-class metrics) | 每個(gè)類別的精確率、召回率和 F1 分?jǐn)?shù)。 |
2)排序指標(biāo)
一句話總結(jié):這些指標(biāo)通過(guò)評(píng)估系統(tǒng)對(duì)相關(guān)結(jié)果的排序能力,衡量檢索(包括 RAG)和推薦等任務(wù)的性能。
當(dāng)我們提到排序任務(wù)時(shí),通常指搜索或推薦,這兩種任務(wù)在大模型應(yīng)用中都很重要。
搜索(檢索)是 RAG 中的 “R”。例如,聊天機(jī)器人可能需要搜索數(shù)據(jù)庫(kù)以找到相關(guān)內(nèi)容。它會(huì)檢索并排序文檔或上下文片段,然后大模型利用這些內(nèi)容生成答案。
大模型還可以重寫(xiě)查詢,幫助用戶更輕松地找到所需內(nèi)容,也就是所謂的query改寫(xiě)。
推薦的目標(biāo)與搜索類似,返回排序后的選項(xiàng)列表,但側(cè)重點(diǎn)不同。推薦的目的不是找到幾個(gè)精確答案,而是為用戶呈現(xiàn)大量?jī)?yōu)質(zhì)選項(xiàng)供其瀏覽。例如,電商網(wǎng)站上的 “你可能還喜歡” 板塊,或搜索引擎中的熱搜提示建議。
在這兩種情況下,每個(gè)項(xiàng)目(文檔、產(chǎn)品、片段等)都可被標(biāo)記為相關(guān)或不相關(guān),從而為評(píng)估創(chuàng)建真實(shí)數(shù)據(jù)。
有了真實(shí)數(shù)據(jù)后,你就能評(píng)估系統(tǒng)性能。排序指標(biāo)主要分為兩類:
- 與排名無(wú)關(guān)的指標(biāo):關(guān)注是否檢索到相關(guān)項(xiàng)目,而不考慮它們的順序。(系統(tǒng)是否找到了應(yīng)找到的項(xiàng)目?)
- 與排名有關(guān)的指標(biāo):考慮項(xiàng)目的順序,對(duì)將相關(guān)結(jié)果排在前列的結(jié)果給予更高評(píng)分。
例如,NDCG 等指標(biāo)會(huì)同時(shí)評(píng)估相關(guān)性和排名順序,對(duì)排序靠前的項(xiàng)目賦予更高權(quán)重。相比之下,命中率(Hit Rate)僅檢查是否至少找到了一個(gè)正確答案,即使該答案排在最后。
評(píng)估通常針對(duì)前 K 個(gè)結(jié)果(如前 5 個(gè)或前 10 個(gè)),因?yàn)橄到y(tǒng)通常會(huì)檢索大量項(xiàng)目,但僅顯示或使用其中一部分。例如,前 5 個(gè)結(jié)果命中率(Hit Rate@5)用于衡量至少一個(gè)相關(guān)結(jié)果出現(xiàn)在前 5 個(gè)位置的頻率。
以下是一些常用的排序指標(biāo):
| Precision @k(前 k 項(xiàng)精確率) | 排名前 k 的項(xiàng)目中,相關(guān)項(xiàng)目的比例。 |
| Recall @k(前 k 項(xiàng)召回率) | 所有相關(guān)項(xiàng)目中,出現(xiàn)在排名前 k 的結(jié)果中的比例 |
| Normalized Discounted Cumulative Gain (歸一化折損累計(jì)增益) | 衡量排名質(zhì)量,對(duì)排名靠前的相關(guān)項(xiàng)目賦予更高權(quán)重。 |
| Hit Rate @K(前 k 項(xiàng)命中率) | 二元指標(biāo),用于檢查排名前 k 的項(xiàng)目中是否至少出現(xiàn)一個(gè)相關(guān)項(xiàng)目。 |
| Mean Reciprocal Rank (MRR@K)(平均 reciprocal 排名) | 在所有查詢中,排名前 k 的結(jié)果里,第一個(gè)相關(guān)項(xiàng)目的倒數(shù)排名的平均值。 |
3)確定性匹配
一句話總結(jié):只要能編寫(xiě)代碼來(lái)驗(yàn)證輸出與正確答案是否匹配,就可以采用確定性匹配。
分類和排序是具有明確定義指標(biāo)的窄任務(wù)示例。但在其他情況下,也可能存在一個(gè)正確答案或接近正確的答案。例如:
- 編碼
- 數(shù)據(jù)提取
- 特定領(lǐng)域問(wèn)答
- 工作流中的單個(gè)步驟
在這些情況下可以進(jìn)行確定性匹配,以編程方式檢查輸出,類似于軟件單元測(cè)試。但對(duì)于大模型,一個(gè)答案正確并不意味著其他答案也正確,因此你需要多種測(cè)試輸入以確保覆蓋全面。
想象測(cè)試一個(gè)從招聘廣告中提取信息(如識(shí)別職位名稱)的系統(tǒng),你可以對(duì)輸出和預(yù)期結(jié)果進(jìn)行精確匹配,或使用模糊匹配來(lái)處理細(xì)微差異(如格式或大小寫(xiě))。
如果輸出為 JSON 格式(例如 { “job role”: “AI engineer”, “min_experience_yrs”: “3” }),你也可以匹配 JSON 鍵值對(duì)。
如果涉及特定領(lǐng)域問(wèn)答,可以構(gòu)建一個(gè)包含預(yù)期關(guān)鍵詞的真實(shí)數(shù)據(jù)集。例如,”法國(guó)的首都是什么?” 的答案應(yīng)始終包含 “巴黎”。檢查每個(gè)響應(yīng)是否包含正確的詞匯,而無(wú)需進(jìn)行全文匹配。
在壓力測(cè)試中,可以將所有輸出結(jié)果與一個(gè)預(yù)期詞匯或短語(yǔ)列表進(jìn)行比較。如果你希望聊天機(jī)器人不要提及競(jìng)爭(zhēng)對(duì)手,可以創(chuàng)建對(duì)應(yīng)的測(cè)試提示詞,并測(cè)試回答中是否包含預(yù)置的拒絕類詞匯。
也可以在其他場(chǎng)景中應(yīng)用類似的檢查。例如,驗(yàn)證智能體是否調(diào)用了正確的工具,或腳本交互是否產(chǎn)生了預(yù)期結(jié)果(如檢索到特定的數(shù)據(jù)庫(kù)條目)。
對(duì)于編碼任務(wù),通常不會(huì)要求輸出與參考代碼完全匹配,但可以通過(guò)其他方式驗(yàn)證正確性。比如故意引入錯(cuò)誤,然后檢查模型是否能生成修復(fù)錯(cuò)誤并通過(guò)測(cè)試的代碼。
一些常用方法總結(jié):
| 精確匹配(Exact Match) | 檢查響應(yīng)是否與預(yù)期輸出完全匹配。 |
| 模糊匹配(Fuzzy Match) | 允許細(xì)微差異,比如忽略空格或格式。 |
| 詞匯或元素匹配(Word or Item Match) | 驗(yàn)證響應(yīng)是否包含特定的固定詞匯或字符串,不考慮完整措辭。 |
| JSON 匹配(JSON match) | 匹配結(jié)構(gòu)化 JSON 輸出中的鍵值對(duì)。 |
| 單元測(cè)試通過(guò)率(Unit test pass rate) | 跟蹤生成的代碼是否通過(guò)預(yù)定義的測(cè)試用例。 |
4)基于內(nèi)容重復(fù)的指標(biāo)
一句話總結(jié):通過(guò)詞語(yǔ)、元素或字符重疊來(lái)比較回答結(jié)果。
到目前為止,我們主要關(guān)注的是存在單一正確結(jié)果的任務(wù)。但許多大模型應(yīng)用會(huì)生成自由格式文本。在這些情況下,可以有一個(gè)參考答案,但不會(huì)要求新輸出與該答案完全匹配。
例如,在總結(jié)財(cái)務(wù)報(bào)告時(shí),會(huì)將每個(gè)新摘要與人工撰寫(xiě)的 “理想” 摘要進(jìn)行比較。但傳達(dá)相同信息的方式有很多種,因此許多僅部分匹配的摘要實(shí)際上也同樣出色。
為此,機(jī)器學(xué)習(xí)界提出了基于重疊的指標(biāo)。這些指標(biāo)用于反映參考內(nèi)容與生成結(jié)果之間重復(fù)的符號(hào)、詞匯或詞匯序列數(shù)量。
以下是一些例子:
- BLEU 分?jǐn)?shù):最初是為機(jī)器翻譯開(kāi)發(fā)的,但也適用于其他語(yǔ)言任務(wù)。它通過(guò)評(píng)估 n 元語(yǔ)法(短詞匯序列)的重疊度來(lái)反映精確率(生成響應(yīng)中出現(xiàn)在參考內(nèi)容中的詞匯比例),同時(shí)還會(huì)對(duì)過(guò)短的響應(yīng)施加懲罰。
- ROUGE: 最初是為文本摘要設(shè)計(jì)的,其原理與 BLEU 類似,但更注重召回率(衡量參考文本中有多少內(nèi)容出現(xiàn)在生成響應(yīng)中)。
- METEOR: 會(huì)進(jìn)行詞匯級(jí)匹配,但還會(huì)借助外部語(yǔ)言詞典考慮同義詞和詞根形式。
一些常用方法總結(jié):
| BLEU(雙語(yǔ)評(píng)估研究) | 評(píng)估 n 元語(yǔ)法重疊(最多 4 元)。注重精確率;對(duì)簡(jiǎn)潔性進(jìn)行懲罰。 |
| ROUGE-n(面向摘要評(píng)估的召回導(dǎo)向研究) | 評(píng)估指定的 n 元語(yǔ)法重疊。注重召回率。 |
| ROUGE-l(面向摘要評(píng)估的召回導(dǎo)向研究) | 評(píng)估生成文本與參考文本之間的最長(zhǎng)公共子序列。注重召回率。 |
| METEOR(帶顯式排序的翻譯評(píng)估指標(biāo)) | 評(píng)估詞匯重疊情況,考慮同義詞和詞干提取。平衡精確率和召回率。 |
| 萊文斯坦距離(Levenshtein distance) | 計(jì)算使兩個(gè)字符串匹配所需的字符編輯(插入、刪除或替換)次數(shù)。 |
需要注意的是:
盡管基于重疊的指標(biāo)是自然語(yǔ)言處理(NLP)研究的基礎(chǔ),但它們往往與人類判斷相關(guān)性不高,且不適用于高度開(kāi)放式任務(wù)?;谇度肽P突?LLM 的現(xiàn)代評(píng)估方法則能提供更具上下文感知的評(píng)估。
5)語(yǔ)義相似度
一句話總結(jié):使用嵌入模型進(jìn)行語(yǔ)義匹配。
精確匹配和基于內(nèi)容重疊的指標(biāo)都會(huì)比較輸出結(jié)果中的詞匯和元素,卻不會(huì)考慮它們的含義。但含義往往是我們真正關(guān)心的!
以下是兩個(gè)聊天機(jī)器人的回答示例:
– “是的,我們接受產(chǎn)品購(gòu)買(mǎi)后的退貨。”
– “當(dāng)然,您可以在購(gòu)買(mǎi)后將商品退回。”
大多數(shù)人類讀者都會(huì)認(rèn)為這兩個(gè)回答的意思大致一樣。但基于內(nèi)容重疊的指標(biāo)不會(huì)這么認(rèn)為,因?yàn)樗鼈兊墓灿迷~匯很少。
語(yǔ)義相似度方法用于比較含義而非詞匯??梢允褂们度肽P停苯佑?jì)算語(yǔ)義相似度。這類模型將文本轉(zhuǎn)換為向量,以捕捉詞匯之間的上下文和關(guān)系。通過(guò)比較這些向量之間的距離,你可以了解文本的實(shí)際相似程度。
這種評(píng)估方法的局限性在于,它們完全依賴于所使用的嵌入模型。嵌入模型可能無(wú)法很好地捕捉含義的細(xì)微差別,且可能出現(xiàn)誤匹配。僅關(guān)注詞元級(jí)或句子級(jí)比較有時(shí)也會(huì)忽略整個(gè)段落的更廣泛上下文。
6)LLM 作為裁判
一句話總結(jié):通過(guò)提示詞要求大模型來(lái)比較或者選擇更好的輸出結(jié)果。
(1)相似度匹配
雖然語(yǔ)義匹配(”這兩個(gè)回答的含義是否相同?”)通常是目標(biāo),但基于嵌入模型的相似度并不總是最精確的結(jié)果。嵌入可以捕捉大致含義,但可能遺漏重要細(xì)節(jié)。例如:
– “聯(lián)系支持人員之前,請(qǐng)重啟設(shè)備。”
– “重啟設(shè)備之前,請(qǐng)聯(lián)系支持人員。”
盡管語(yǔ)序改變會(huì)導(dǎo)致含義變化,但這兩個(gè)句子的向量可能仍然看起來(lái)很相似。再比如
– “點(diǎn)擊菜單中的’賬戶’頁(yè)面。”
– “點(diǎn)擊菜單中的’賬戶詳情’頁(yè)面。”
在這種情況下,特定菜單項(xiàng)的正確名稱對(duì)判斷準(zhǔn)確性至關(guān)重要,但基于嵌入計(jì)算相似度對(duì)這種情況的區(qū)分力度不夠。
為了獲得更好的結(jié)果,可以使用 LLM 作為裁判進(jìn)行相似度匹配。
例如,可以將參考內(nèi)容和新生成的答案輸入給模型,并詢問(wèn):”新答案是否與參考內(nèi)容傳達(dá)相同的含義?回答是或否。“
這種方法的適應(yīng)性很強(qiáng)。你可以指定評(píng)判時(shí)需要優(yōu)先考慮的因素(如精確術(shù)語(yǔ)、遺漏信息或風(fēng)格一致性)。你還可以要求 LLM 解釋推理過(guò)程,使結(jié)果更可信,并提高評(píng)估質(zhì)量。
這種 LLM 評(píng)估方法在實(shí)踐中應(yīng)用很廣泛。
(2)成對(duì)比較
使用 LLM 的另一種方式是成對(duì)比較:向 LLM 提供兩個(gè)答案,并要求它判斷哪個(gè)更好。這也是 “LLM 作為裁判” 這個(gè)名稱的由來(lái)。
總結(jié)一下用LLM評(píng)估的兩種方法:
- 相似匹配:使用大語(yǔ)言模型(LLM)比較兩個(gè)輸出結(jié)果,判斷它們是否傳達(dá)相同的含義、風(fēng)格或細(xì)節(jié)。
- 成對(duì)比較:使用大語(yǔ)言模型(LLM)根據(jù)指定標(biāo)準(zhǔn),從兩個(gè)輸出回答中選出更優(yōu)的,或判斷兩者是否效果一樣。
下一篇文章,我們來(lái)講對(duì)于【沒(méi)有參考答案】這種情況的評(píng)估方法和指標(biāo)選擇。
本文由 @Mrs.Data 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!