為什么模型訓(xùn)練中會有“機(jī)器評分高,但人工評分卻很差”的情況?

0 評論 1906 瀏覽 4 收藏 9 分鐘

為什么模型在自動(dòng)評估中表現(xiàn)優(yōu)異,卻在真實(shí)場景中頻頻翻車?是評估指標(biāo)選錯(cuò)了,還是訓(xùn)練數(shù)據(jù)出了問題?本文將從評分機(jī)制、數(shù)據(jù)偏差、任務(wù)理解等多個(gè)維度,深入剖析這一常見卻被忽視的現(xiàn)象,幫助你真正理解“高分模型”背后的隱患與優(yōu)化方向。

有沒有在AI應(yīng)用開發(fā)者的中,遇到過這樣一個(gè)令人困惑的現(xiàn)象:

  • 你在訓(xùn)練后跑了 ChatScore 或 BLEU、Perplexity 等指標(biāo),一切都不錯(cuò);
  • 結(jié)果找用戶或團(tuán)隊(duì)做了一輪人工測評,卻反饋:“沒溫度”、“像機(jī)器”、“答得很官方”。

為什么模型“表面優(yōu)秀”,在人工測評時(shí)拿到低分?這到底是哪里出了問題?

出現(xiàn)這種情況,可能是你用了不匹配的“評委”標(biāo)準(zhǔn),今天我們從模型評估機(jī)制的角度,來詳細(xì)聊一聊這個(gè)“評分錯(cuò)位”的問題。

一、為什么會出現(xiàn)這種評分“錯(cuò)位”現(xiàn)象?

原因1:機(jī)器更看重“格式對不對”,人更在意“你懂不懂我”

大多數(shù)機(jī)器評審模型評判輸出質(zhì)量時(shí),默認(rèn)參考的標(biāo)準(zhǔn)是:“準(zhǔn)確性 + 流暢性 + 結(jié)構(gòu)完整”,也就是:

  • 有沒有正確回答問題?
  • 結(jié)構(gòu)是否完整?
  • 語言輸出是否流暢?

但人在某些場景對話中,關(guān)心的往往來自細(xì)膩的情緒判斷、語境感受力,比如:

  • 你有沒有真正了解我的感受?
  • 你說話的方式讓我舒服嗎?
  • 你是不是只是教我理論,而不能告訴我實(shí)際該怎么應(yīng)用?

舉個(gè)例子(拖延場景):

用戶問:“我又拖延了一整天,我是不是很沒有意志力???”

模型輸出A(評分高):“建議你制定一個(gè)每日目標(biāo)清單,并設(shè)定獎(jiǎng)勵(lì)機(jī)制以強(qiáng)化執(zhí)行力?!?/p>

模型輸出B(評分低):“我聽出來你已經(jīng)對自己的狀態(tài)有些失望了。你為什么會覺得自己沒有意志力呢?”

模型評分時(shí):

? A 得分高是因?yàn)榻Y(jié)構(gòu)清晰、建議明確

? B 得分低是因?yàn)闆]有直接“給方案”

但人在評分時(shí)往往會選 B 更有溫度、更被理解。這就是兩者錯(cuò)位。

這種現(xiàn)象常見原因包括:

1. 語言風(fēng)格自然口語化,比如不太規(guī)范的表達(dá)、碎句、停頓,機(jī)器會扣分,但人反而覺得真實(shí);

2. 回答沒有標(biāo)準(zhǔn)結(jié)構(gòu),但有情緒共鳴;

3. 刻意“留白”或不下判斷,機(jī)器會判為“未完成任務(wù)”,但人會覺得“沒被冒犯,挺好”。

原因2:評估 prompt 設(shè)計(jì)不當(dāng),導(dǎo)致模型“誤評”

很多人在 做模型打分時(shí),只寫一條 prompt,沒有提供明確的評分維度,比如是否共情、是否邏輯清晰、是否溫和表達(dá)等,模型就會默認(rèn)用通用語言評價(jià)指標(biāo)(準(zhǔn)確、結(jié)構(gòu)、知識密度等)去打分,這就造成部分場景下的回答不接地氣。

舉個(gè)例子(依然拖延場景):

Prompt 寫的是:“你是一個(gè)對話質(zhì)量評審官,請判斷以下兩個(gè)回答中哪個(gè)更好。”

? 用戶發(fā)問:

“我明知道要交報(bào)告了,但今天還是刷了三個(gè)小時(shí)短視頻……我到底怎么了?”

? 回答A:

“建議你使用番茄鐘工作法,并設(shè)置屏蔽應(yīng)用程序,提升專注力。”

? 回答B(yǎng):

“我感覺你可能是在逃避某種壓力,而不是單純地‘不自律’。你今天過得還好嗎?”

如果沒有提示“請考慮共情、語氣、對情緒的理解”等評分維度,模型很可能會選 A ——因?yàn)樗蝿?wù)完成度高、結(jié)構(gòu)工整、建議明確。

但人類打分時(shí),往往會更喜歡 B ——因?yàn)樗患敝鉀Q問題,而是先理解人本身的狀態(tài)

評估 prompt 不僅決定“讓模型關(guān)注什么”,也決定“它可能忽略什么”。對于需要情感類的對話任務(wù),如果 prompt 中沒有明確強(qiáng)調(diào)“共情”“溫和表達(dá)”等維度,模型就可能用錯(cuò)“尺子”來打分,造成“機(jī)器評分高卻不打動(dòng)人”的錯(cuò)位現(xiàn)象。

二、怎么解決這個(gè)問題?

方法1:人機(jī)聯(lián)合評估,不能只靠ChatScore等自動(dòng)指標(biāo)

  • 初步篩選可以跑 ChatScore,但最終上線前必須做人工樣本核驗(yàn);
  • 推薦制作一個(gè)“人機(jī)評分對照表”,看哪些場景下兩者嚴(yán)重分歧,做“偏好訓(xùn)練”優(yōu)化;
  • 多維度人工評分體系(如:共情度、溫和度、任務(wù)完成度)能更精準(zhǔn)還原用戶體驗(yàn)。

方法2:訓(xùn)練你自己的“行為偏好評分器”

這是許多領(lǐng)先團(tuán)隊(duì)都在使用的方法:

將你已有的大量人工偏好數(shù)據(jù)(“這個(gè)回答更好”)拿出來,訓(xùn)練一個(gè)“懂你的用戶”的模型評分器。

當(dāng)你收集了幾千條這樣的數(shù)據(jù)后,就可以訓(xùn)練一個(gè)Reward Model(偏好評分器),它:

  • 不再只看語言邏輯;
  • 會更關(guān)注情緒識別、語氣溫和、引導(dǎo)性強(qiáng)等維度;
  • 更接近你的目標(biāo)用戶對AI的真實(shí)期待。

這樣,你之后的模型評估就可以真正基于你的場景和人群,而不是一套通用標(biāo)準(zhǔn)。

方法3:重新設(shè)計(jì)機(jī)器評審的 Prompt,引導(dǎo)更人性化的打分

與其讓機(jī)器評審當(dāng)一個(gè)特定的角色,還不如給它一些更具體的評分維度。

比如,Prompt中寫明從以下維度為回答進(jìn)行打分:

  • 共情度(是否理解用戶情緒)
  • 引導(dǎo)力(是否有助于用戶思考)
  • 語言溫和度
  • 問題正確理解性
  • 回答完整性
  • 表達(dá)流暢度

請每個(gè)維度給1-5分,并說明原因。這樣得到的打分會更貼近人類主觀判斷,更適合需要情感溫度的AI。(具體維度如何,還要看實(shí)際的應(yīng)用場景)

舉個(gè)例子,

評估標(biāo)準(zhǔn)錯(cuò)了,模型效果可能會大打折扣

在LoRA微調(diào)任務(wù)中,如果你的目標(biāo)是做情緒陪伴、或需要情感理解、支持的AI,那么你:

  • 不能只信 ChatScore / BLEU / Perplexity;
  • 應(yīng)該多維對比:機(jī)器打分 vs 人工評分;
  • 可以訓(xùn)練自己懂場景、懂風(fēng)格的“偏好評分器”;
  • 最后上線前,一定要經(jīng)過人工評估 + 小范圍灰度實(shí)測。

畢竟,模型不只是會“說話”,更要說出“讓人愿意繼續(xù)對話”的話。

因?yàn)檎嬲龥Q定用戶是否留下來的,不是你算法有多高級、結(jié)構(gòu)多精巧,而是——

當(dāng)用戶說“我今天真的撐不下去了”的時(shí)候,

你的模型能不能先像一個(gè)知心朋友那樣,在引導(dǎo)他找到答案之前,讓他感受到“我懂你”。

這才是大模型時(shí)代,更加值得評估的能力。

本文由 @養(yǎng)心進(jìn)行時(shí) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App