模型微調(diào):訓(xùn)練集&驗(yàn)證集&測(cè)試集
大模型時(shí)代,微調(diào)已成為產(chǎn)品落地的關(guān)鍵環(huán)節(jié)。但很多人對(duì)“訓(xùn)練集、驗(yàn)證集、測(cè)試集”的劃分邏輯仍模糊不清。本文將從數(shù)據(jù)集的功能定位出發(fā),梳理微調(diào)流程中的關(guān)鍵節(jié)點(diǎn),幫助你建立清晰的模型調(diào)優(yōu)認(rèn)知框架。
在做模型微調(diào)時(shí),我們總在追問一個(gè)問題:模型到底調(diào)得好不好?
但“好不好”不是主觀判斷,更不能只看 loss 降了沒、F1 提高了沒。你真正要做的,是確保模型對(duì)未知數(shù)據(jù)具備穩(wěn)定的泛化能力。而評(píng)估這個(gè)問題的基礎(chǔ),不是參數(shù),不是模型結(jié)構(gòu),而是你是否搞清楚了這三類數(shù)據(jù)的邊界和作用:訓(xùn)練集、驗(yàn)證集、測(cè)試集。
這篇文章就是為了解決一個(gè)核心問題:訓(xùn)練、驗(yàn)證、測(cè)試三類數(shù)據(jù)集,我們到底要搞清楚哪些關(guān)鍵點(diǎn)?
1. 它們分別是什么?——不是“都用來訓(xùn)練”的
- 訓(xùn)練集:模型學(xué)習(xí)參數(shù)的地方。它是“教材”,模型直接在上面反復(fù)擬合,loss就是在這上面算的。
- 驗(yàn)證集:訓(xùn)練過程中用來評(píng)估模型表現(xiàn)的數(shù)據(jù)集,用于調(diào)參、早停、選結(jié)構(gòu),但本身不參與訓(xùn)練。
- 測(cè)試集:訓(xùn)練和調(diào)參全部結(jié)束后才使用,用于評(píng)估最終泛化能力。它是真正的“考試卷”,結(jié)果直接決定模型能不能上線。
關(guān)鍵點(diǎn):驗(yàn)證集 ≠ 測(cè)試集,不能混用。前者參與調(diào)參,后者必須獨(dú)立留存、只評(píng)估一次。
2. 怎么劃分?——不是固定比例,而是視情況而定
劃分比例要根據(jù)數(shù)據(jù)量來定,按照訓(xùn)練集/驗(yàn)證集/測(cè)試集順序:
- 數(shù)據(jù)量大(>10萬):推薦80%/10%/10%,訓(xùn)練集多給,驗(yàn)證和測(cè)試也足夠產(chǎn)生統(tǒng)計(jì)穩(wěn)定性。
- 中等規(guī)模(1萬~10萬):建議70%/15%/15%或75%/15%/10%,保證每個(gè)階段都有代表性。
- 數(shù)據(jù)少(<1萬):可用K-fold交叉驗(yàn)證,或采用80%/20%(驗(yàn)證+測(cè)試)的訓(xùn)練,驗(yàn)證+測(cè)試組合,最后用hold-out評(píng)估。
關(guān)鍵點(diǎn):劃分不只是數(shù)字分配,而是為后續(xù)各階段的判斷提供干凈、合理的數(shù)據(jù)依據(jù)。
3. 什么時(shí)候用?——三階段推進(jìn)邏輯要清晰
關(guān)鍵點(diǎn):測(cè)試集不是“看看效果”這么簡(jiǎn)單,它是上線與否的最終評(píng)判標(biāo)準(zhǔn)。
4. 看什么指標(biāo)?——指標(biāo)種類隨階段推進(jìn)而變化
關(guān)鍵點(diǎn):指標(biāo)種類不是越多越好,而是越靠后越細(xì)。訓(xùn)練關(guān)注模型學(xué)得對(duì)不對(duì),驗(yàn)證關(guān)注泛化是否穩(wěn)定,測(cè)試關(guān)注結(jié)果能否交付。
5. 指標(biāo)值怎么變化?—— 一定變,而且變化有規(guī)律
一般來說,三個(gè)階段的指標(biāo)值會(huì)逐步下降。如果下降很小,說明模型泛化性好;如果訓(xùn)練集很高、驗(yàn)證集和測(cè)試集很低,就說明模型過擬合了。
關(guān)鍵點(diǎn):不是看哪個(gè)值高,而是看三者之間的落差是否合理、是否穩(wěn)定。
這正是為什么說:模型微調(diào)不是調(diào)一個(gè)數(shù)值變漂亮,而是驗(yàn)證一個(gè)過程是否穩(wěn)得住。模型效果看起來不錯(cuò),不代表它能泛化;只有訓(xùn)練、驗(yàn)證、測(cè)試三者的指標(biāo)走勢(shì)符合規(guī)律,落差可控,你才能說:這個(gè)模型,不只是能學(xué),而是能用。
所以,你調(diào)的不是 loss,而是在驗(yàn)證泛化能力。
真正靠譜的微調(diào)流程,從來不是“訓(xùn)練得多就行”,而是對(duì)每一階段都心中有數(shù):
- 我在訓(xùn)練集上,模型是不是學(xué)得會(huì);
- 驗(yàn)證集反饋,是否能穩(wěn)定指導(dǎo)調(diào)參;
- 測(cè)試集結(jié)果,是不是唯一一次真實(shí)模擬上線表現(xiàn)。
別再混淆它們的角色,也別再用驗(yàn)證集“順手一評(píng)”就當(dāng)結(jié)論交差。搞清楚這三者的邊界與節(jié)奏,是你真正具備構(gòu)建可交付模型能力的標(biāo)志。
本文由 @AI思·享@蓉77 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!