從零到一:搭建模型自動化評測體系
在AI模型快速迭代的時(shí)代,評測體系不再只是“驗(yàn)證效果”的終點(diǎn),而是驅(qū)動模型優(yōu)化的起點(diǎn)。本文以“從零到一”的視角,拆解如何構(gòu)建一套可復(fù)用、可擴(kuò)展的自動化評測體系。
在大模型的訓(xùn)練中,模型評測始終是不可或缺的一個(gè)環(huán)節(jié),模型的優(yōu)勢劣勢、迭代方向、迭代成果、與國內(nèi)外競品的差距、是否存在硬傷?如果沒有評測,以上所說的這些都無法判斷。因此近2年來「模型評測」相關(guān)崗位,需求出現(xiàn)了井噴,各大公司都緊鑼密鼓地搭建模型評測團(tuán)隊(duì)。
然而與此同時(shí),各大公司又在布局另一件事:自動化評測,即用大模型評測大模型
判斷模型是否可靠,難道不應(yīng)該用人類嗎?既然如此,為什么要用模型來評測模型?原因很簡單:
當(dāng)前人類團(tuán)隊(duì)的評測產(chǎn)能,開始跟不上評測需求了
這個(gè)跟不上需求,主要體現(xiàn)在兩個(gè)維度:
一是評測進(jìn)入專項(xiàng)深水區(qū),人類有點(diǎn)跟不上節(jié)奏了,比如代碼生成等評測任務(wù)。對于這些數(shù)據(jù),人類評測往往需要投入大量時(shí)間成本,而且在不少情況下,評測人員本身也難以準(zhǔn)確判斷結(jié)果的對錯(cuò);
二是隨著模型迭代速度不斷加快,評測需求呈指數(shù)級增長,現(xiàn)有團(tuán)隊(duì)已難以承載;而如果單純依靠擴(kuò)充人力來解決,不僅效率低,還會帶來顯著的成本壓力。
作為在職的 SFT&模型評測項(xiàng)目經(jīng)理,本文就從一個(gè) AI 訓(xùn)練從業(yè)者的視角,分享從0到1搭建起自動化評測流程的核心思路。
第一步:改造原有評測流程
搭建自動化評測流程之前,不妨先從常規(guī)評測流程入手,思考常規(guī)流程可以如何用大模型進(jìn)行改造。
常規(guī)的模型評測流程是這樣的:
常規(guī)評測流程本身已經(jīng)相當(dāng)科學(xué),但正如前文所述,它在效率與成本上存在明顯瓶頸。那么,如何利用大模型對其進(jìn)行改造?一個(gè)直觀的思路是,將評測團(tuán)隊(duì)中部分重復(fù)性強(qiáng)、規(guī)則性明確的工作逐步交給模型完成。
例如在規(guī)則撰寫環(huán)節(jié),過去需要人工整理背景與要求,而現(xiàn)在我們只需向 AI 口述項(xiàng)目背景、評測需求和重點(diǎn)關(guān)注的維度,就能快速生成一份初版的評測規(guī)則文檔。在此基礎(chǔ)上,人類再進(jìn)行修訂和優(yōu)化,就能夠節(jié)省大量時(shí)間與精力。
需要注意的是,若目標(biāo)是自動化評測,那么面向 AI 的規(guī)則文檔與面向人工評測員的文檔會有所差異,這一點(diǎn)我們會在后文展開。
敲定規(guī)則文檔后,我們需要讓 AI 進(jìn)行試標(biāo),看看輸出的內(nèi)容、結(jié)構(gòu)等,是否符合我們評測的需求?這也是讓 AI 接管評測的重要一步,而這一步的關(guān)鍵在于:prompt 的構(gòu)建。我們需要根據(jù)規(guī)則來撰寫一段清晰、明確的prompt,讓 AI 能夠理解,它應(yīng)該如何對每條數(shù)據(jù)進(jìn)行評測,并且給出評測結(jié)果。完成 prompt 之后,就可以進(jìn)行小批量的試標(biāo)了。
AI 試標(biāo)的過程,本質(zhì)上是對規(guī)則及 prompt 合理性的檢驗(yàn),AI 試標(biāo)輸出的結(jié)果符合需求后,我們就可以批量把評測數(shù)據(jù)交給 AI 進(jìn)行評測,等待 AI 給出的評測結(jié)果。
由于目前 AI 依然存在幻覺問題,因此 AI 給出的評測結(jié)果,并不能夠百分百置信,更不能夠直接用于輸出評測報(bào)告,它們的憑借結(jié)果還需要經(jīng)過人類團(tuán)隊(duì)的驗(yàn)證,因此下一個(gè)環(huán)節(jié)就是:人類驗(yàn)收 AI 評測結(jié)果。
如果評測集僅有100~200條數(shù)據(jù),直接100%驗(yàn)收即可;但如果評測集的量級較大,如超過500甚至1000條,我們可以采取先抽驗(yàn)30%,看看評測結(jié)果是否置信,如果準(zhǔn)確率達(dá)到95%以上,基本可以判定本次 AI 評測的結(jié)果是置信的,也就可以輸出評測報(bào)告了。
寫到這里,一個(gè)通用的自動化評測流程,也就初步搭建好了:
可以看到,自動化評測并不是要取代人類,而是讓人類團(tuán)隊(duì)從大量重復(fù)性、低價(jià)值的工作中解放出來。通過這套流程,評測人員不再需要全量參與,而是以抽檢和糾錯(cuò)為主,從“執(zhí)行者”轉(zhuǎn)變?yōu)椤氨O(jiān)督者”。
這樣一來,團(tuán)隊(duì)不僅能保持評測質(zhì)量,還能在同樣的時(shí)間里承接更多需求,整體產(chǎn)能大幅提升。
既然 AI 在評測流程中扮演了越來越重要的角色,那么接下來的關(guān)鍵問題就是:如何寫好 Prompt。
第二步:針對評測任務(wù)構(gòu)建 Prompt
在評測流程完成初步改造后,AI 已能夠接手規(guī)則的初版撰寫、試標(biāo)以及正式的評測標(biāo)注,這意味著自動化評測的框架基本具備。
但真正決定這套體系能否跑得通的關(guān)鍵因素,或者說整個(gè)流程的關(guān)鍵節(jié)點(diǎn),其實(shí)在于——評測 Prompt 的構(gòu)建。
我把一個(gè)好的評測 Prompt,濃縮為了以下這個(gè)公式:
優(yōu)質(zhì)評測 Prompt = 明確的評測目標(biāo) + 清晰明確的規(guī)則文檔 + 輸出格式約束
一個(gè)個(gè)來展開。
1. 明確的評測目標(biāo)
這個(gè)沒有太多可說的,就是要讓模型知道它到底在評測什么?是準(zhǔn)確性、相關(guān)性、邏輯一致性,還是可讀性?如果目標(biāo)本身模糊,模型的輸出就會偏離預(yù)期,評測結(jié)果也就無法采用。
2. 清晰明確的規(guī)則文檔
可以這么說,寫給模型參考的規(guī)則文檔,質(zhì)量要求要比給人類團(tuán)隊(duì)的更高。因?yàn)槿祟愒u測和模型自動化評測,即便最終交付的結(jié)果相同,但完成任務(wù)的路徑差別極大。
在人類團(tuán)隊(duì)評測時(shí),即便規(guī)則文檔存在瑕疵或表述不夠清晰,評測員仍可以通過溝通、提問或反饋來澄清困惑,從而修正偏差,最終使得交付的評測數(shù)據(jù)基本符合評測需求及規(guī)則。
而模型不同于人類評測員,首先,模型無法在模糊規(guī)則下做出靈活的判斷,而是完全依賴 Prompt 提供的信息、指令來進(jìn)行輸出;其次,模型沒有這種詢問規(guī)則制定者的解決路徑,它面對模糊規(guī)則時(shí)只能硬性給出結(jié)果,往往偏離真實(shí)意圖。
因此如果規(guī)則在 Prompt 中的表達(dá)不夠明確,對規(guī)則維度的定義不明確,那么自動化評測的結(jié)論就會失真,自動化評測不僅無法幫助我們降本增效,反而浪費(fèi)了大量的時(shí)間和資源。
除了各個(gè)評測維度的規(guī)則以外,評測的方法分值也需要進(jìn)一步優(yōu)化。
在人類評測中,常用的是 0/0.5/1、0/1/2,或 0–5 等較粗粒度刻度。之所以可行,是因?yàn)檎麄€(gè)流程嚴(yán)格依據(jù)評測規(guī)則與判定標(biāo)準(zhǔn),配合質(zhì)檢與驗(yàn)收流程,對存疑數(shù)據(jù)也可以通過討論達(dá)成評測結(jié)果的一致,總體而言,現(xiàn)有的人類評測流程和標(biāo)準(zhǔn),是科學(xué)且置信的。
對模型而言,情況則有所不同。
由于大語言模型的本質(zhì)是統(tǒng)計(jì)學(xué),是概率,這就導(dǎo)致模型的生成結(jié)果必然存在抖動。
而模型在面對細(xì)微差異時(shí),要么被迫落在同一檔,失去區(qū)分度;要么因?yàn)檩p微波動而跨檔跳分,造成結(jié)果不穩(wěn)定。長期來看,這會把原本可以忽略的小差異不斷放大,與模型自身的輸出抖動疊加在一起,使得評測結(jié)果在批次之間缺乏一致性,難以作為可靠的參考依據(jù)。
因此,在自動化評測中通常需要更細(xì)粒度或更長刻度的評分方法,避免出現(xiàn)上述情況,以提高評測的準(zhǔn)確度。
3. 輸出格式約束
自動化評測意味著規(guī)?;妮敵鼋Y(jié)果,因此強(qiáng)制約束模型的輸出格式,非常重要。
即便是同一段prompt,即便是同一個(gè)模型,可能每次都會輸出不同結(jié)構(gòu)的內(nèi)容,這種結(jié)構(gòu)上的不一致,一旦進(jìn)入大規(guī)模評測,就會帶來嚴(yán)重的問題:
首先,人工驗(yàn)收模型評測的結(jié)果會非常麻煩,比如有的response只給分?jǐn)?shù),不給原因,驗(yàn)收就相當(dāng)于人工重新再評一次這條數(shù)據(jù),團(tuán)隊(duì)不得不投入大量人力去判斷評測結(jié)果,那自動化頻次的意義何在?其次,不同批次的評測結(jié)果缺乏統(tǒng)一的輸出口徑,就很難進(jìn)行橫向?qū)Ρ?,甚至今天輸出的?shù)據(jù)和下個(gè)月的數(shù)據(jù)沒有可比性,版本迭代之間的差異無法量化,導(dǎo)致我們無法判斷模型的真實(shí)改進(jìn)幅度。
因此我們在prompt里面,必須要求模型以固定結(jié)構(gòu)輸出結(jié)果,這是規(guī)?;那疤幔?strong>只有統(tǒng)一格式才能保證后續(xù):人工核驗(yàn)、統(tǒng)計(jì)、比對、批量數(shù)據(jù)整合的可行性。
落到實(shí)操上,可以要求模型嚴(yán)格遵循固定的輸出結(jié)構(gòu),比如統(tǒng)一要求以 JSON 格式返回評分和理由,或者以表格形式輸出各維度的得分等。
這樣做的好處是顯而易見的:一方面,結(jié)果可以直接被系統(tǒng)化采集和分析,極大提升了規(guī)模化的可行性;另一方面,不同版本、不同批次的結(jié)果能夠保持一致口徑,真正形成可比性和可追溯性。
滿足上述的三個(gè)條件,我們也就得到了一個(gè)優(yōu)質(zhì)的可用于自動化評測的 Prompt,接下來的重點(diǎn)是什么呢?
是模型。
第三步:評測模型的選用
相信我,如果你真的完整搭建一遍自動化評測流程,會發(fā)現(xiàn)選擇合適的模型,可能是最麻煩的一步,因?yàn)槟阈枰瑫r(shí)考慮三個(gè)問題:
- 性能問題
- 穩(wěn)定性問題
- 成本問題
性能問題
首先是性能問題,并不是所有的大模型都適合用來作為評測模型。這里的“性能”指的不是通用性能,而是評測方面的性能。
誠然,很多模型在生成任務(wù)中表現(xiàn)出色,比如對話流暢、內(nèi)容豐富、信息密度較大,但當(dāng)場景切換到自動化評測,反而未必合適,原因在于,評測要求模型更加克制和精準(zhǔn),它要按照固定的規(guī)則去判斷正確與否、如何給分,而不是發(fā)揮創(chuàng)意,對評測數(shù)據(jù)進(jìn)行發(fā)散的分析。
比如我們在內(nèi)部的模型選型過程當(dāng)中,測試了若干個(gè)主流大模型,其中有一個(gè)模型的表現(xiàn),讓人感到錯(cuò)愕:某thinking大模型,文本生成能力不錯(cuò),代碼能力也是第一梯隊(duì),我們本來對其寄予厚望,但很無奈,它在自動化評測場景的表現(xiàn)非常一般,甚至有些讓人失望。
舉個(gè)例子:當(dāng)我們故意往一條評測數(shù)據(jù)中,人為加入一些明顯的低級錯(cuò)誤,并且進(jìn)行反復(fù)評測,按照我們設(shè)定的機(jī)制和規(guī)則,出現(xiàn)這種低級錯(cuò)誤,最終得分不可能高于30分…然而,該模型評測結(jié)果這樣的:
也就意味著,該模型在5次評測中,有4次都沒有發(fā)現(xiàn)人為添加的低級錯(cuò)誤,甚至第3次分?jǐn)?shù)的還更高了。
當(dāng)然,這個(gè)模型還存在一些其他的問題,我們馬上就會講到,也就是:穩(wěn)定性。
穩(wěn)定性問題
還是某thinking模型,以另外一條數(shù)據(jù)為例:
在同一個(gè)模型、同一條輸入的前提下,我們連續(xù)跑了 5 次評測,結(jié)果出現(xiàn)了明顯的波動:第一次是 52 分,第二次掉到 49 分,第三次又升到 56 分,第四次驟降到 43 分,第五次再回到 53 分。
——整體的浮動范圍達(dá)到 13 分。
這就會導(dǎo)致同一條數(shù)據(jù)沒有得到相對一致的結(jié)論,對于自動化評測體系來說,這種波動是致命的,因?yàn)樗粔蚍€(wěn)定,導(dǎo)致我們無法判斷到底哪一次的結(jié)論才是置信的,也就無法用它來長期進(jìn)行評測。
如何解決性能問題和穩(wěn)定性問題呢?只能不斷地嘗試,用各種難度的數(shù)據(jù)進(jìn)行測試,最終形成幾個(gè)團(tuán)隊(duì)公認(rèn)的、評測結(jié)果較為置信的標(biāo)桿模型。
選出了標(biāo)桿模型之后,我們還需要解決第三個(gè)問題:成本。
成本問題
在實(shí)際的評測任務(wù)當(dāng)中,并非所有的任務(wù)難度都很大,如意圖識別類的評測相對簡單,模型只需判斷query的核心意圖即可;而代碼生成、翻譯等任務(wù)的評測難度則明顯更高,往往需要模型具備強(qiáng)大的理解與分析能力。
這就引出了一個(gè)問題:是不是所有的評測都需要用頂尖的大模型去自動化評測?
顯然不需要,如果所有任務(wù)都一刀切地用頂尖模型去跑,成本會迅速膨脹,老板也不會太開心。因此在自動化評測當(dāng)中,我們還需要根據(jù)任務(wù)難度,去匹配合適的模型。
例如低難度、高頻次的任務(wù),可以使用參數(shù)量較小的模型,以較低的單次調(diào)用成本換取覆蓋面和效率,加上任務(wù)本身難度較小,人工復(fù)核的速度也較快,最終能夠給出置信的評測結(jié)果。
而高難度、對結(jié)果準(zhǔn)確性要求極高的任務(wù),則必須引入頂尖大模型,成本高一些是可以接受的,但必須保證評測結(jié)論的可信度。
所以綜合看下來,在實(shí)際搭建模型自動化評測流程的過程當(dāng)中,要踩的坑還是不少的,模型的選擇就是一個(gè)比較大的坑。
因此模型自動化評測流程的搭建,并不是一蹴而就的,它需要我們耐心地衡量每一步如何改造,才能在提升評測產(chǎn)能的同時(shí),也兼顧評測結(jié)果的置信,最重要的是讓評測團(tuán)隊(duì)的同學(xué),從重復(fù)性勞動中解放出來,轉(zhuǎn)而專注于規(guī)則優(yōu)化、誤差診斷等更高價(jià)值的環(huán)節(jié)。
完成上述的三個(gè)步驟,自動化評測的流程基本也就可以跑通了,當(dāng)然,搭建這個(gè)流程急不得,在兼顧現(xiàn)有業(yè)務(wù)的情況下,個(gè)人預(yù)計(jì)一個(gè)團(tuán)隊(duì)要把這套流程搭建起來,一個(gè)月的時(shí)間還是需要的。
總結(jié)
簡單總結(jié)一下。
在方法論層面,自動化評測的構(gòu)建可以概括為三個(gè)核心步驟:
- 流程改造:使AI能夠逐步接手規(guī)則撰寫、試標(biāo)與正式評測,形成可執(zhí)行的自動化工作流;
- Prompt構(gòu)建:將評測目標(biāo)、規(guī)則體系與輸出約束翻譯整合進(jìn)Prompt,保證評測輸出的一致性與可統(tǒng)計(jì)性;
- 模型選型:在性能、穩(wěn)定性與成本之間找到平衡。
如果缺少這三步的頂層設(shè)計(jì),所有的努力最終都可能流于局部優(yōu)化。
即便自動化評測搭建完成,人類團(tuán)隊(duì)的價(jià)值并不會因此消失,相反,評測同學(xué)可以從「執(zhí)行者」轉(zhuǎn)為「裁判員」,不僅一定程度上解放了重復(fù)性勞動,也能把精力集中在更高價(jià)值的環(huán)節(jié)上,比如評測規(guī)則的優(yōu)化、評測維度的拓展、異常結(jié)果的診斷。
最終的結(jié)果就是:同樣規(guī)模的團(tuán)隊(duì),在自動化體系的加持下,可以承接數(shù)倍的評測需求,而質(zhì)量并不因此下降,反而更加穩(wěn)定且置信。
感謝各位看到這里,浮躁的時(shí)代能將長文讀到最后實(shí)屬不易。
覺得有幫助不妨點(diǎn)贊、收藏、加關(guān)注,我們下周再會。
本文由 @比沃特 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Pixabay,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!