大模型驅(qū)動的產(chǎn)品評測方案(三):數(shù)據(jù)準(zhǔn)備和評測環(huán)節(jié)

0 評論 369 瀏覽 4 收藏 11 分鐘

構(gòu)建一個大模型應(yīng)用都有哪些環(huán)節(jié)需要進(jìn)行評測,需要進(jìn)行什么樣的測試活動?

一、數(shù)據(jù)集準(zhǔn)備

選擇能夠驗證指標(biāo)、說明問題的數(shù)據(jù),關(guān)注以下三個方面:

  1. 覆蓋度:是否覆蓋了產(chǎn)品的主要功能和話題?
  2. 多樣性:輸入方式、難度、意圖是否足夠豐富?
  3. 代表性:數(shù)據(jù)分布是否能反映真實的用戶使用情況?

在整個評測體系中,數(shù)據(jù)集的質(zhì)量直接決定了評測結(jié)果的可信度和有效性。一個有缺陷的、或是不具代表性的數(shù)據(jù)集,會產(chǎn)生誤導(dǎo)性的指標(biāo)結(jié)果,讓團(tuán)隊對產(chǎn)品能力產(chǎn)生錯誤判斷,最終可能導(dǎo)致產(chǎn)品在真實世界中的失敗。

因此,制定并執(zhí)行一個嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)集策略,是評測工作成功的重要條件。構(gòu)建一個高質(zhì)量的“黃金”數(shù)據(jù)集可以遵循以下步驟:

從業(yè)務(wù)目標(biāo)出發(fā)

數(shù)據(jù)集的構(gòu)建必須由業(yè)務(wù)需求驅(qū)動 ,首先要問:我們想測試什么?哪些場景的成功或失敗對業(yè)務(wù)影響最大?例如,一個電商客服機(jī)器人,其問題數(shù)據(jù)集必須包含關(guān)于訂單狀態(tài)、退貨政策、產(chǎn)品推薦等核心業(yè)務(wù)流程的問題。

從多個渠道收集數(shù)據(jù)來源

為了確保數(shù)據(jù)集的豐富性和真實性,應(yīng)從多個渠道收集數(shù)據(jù)樣本 。

  • 生產(chǎn)數(shù)據(jù):對于一個客服機(jī)器人,可以收集生產(chǎn)環(huán)境中真實用戶詢問過的歷史問題,這是獲取絕大多常規(guī)數(shù)測試數(shù)據(jù)和意想不到的邊緣案例的最佳來源。(注意:當(dāng)使用生產(chǎn)數(shù)據(jù)時,必須高度重視數(shù)據(jù)隱私。所有個人可識別信息都應(yīng)在處理前進(jìn)行脫敏或匿名化處理)
  • 灰度測試:邀請內(nèi)部員工或一小部分種子用戶對產(chǎn)品進(jìn)行測試,可以系統(tǒng)性地收集反饋和有價值的測試用例。
  • 人工編寫/標(biāo)注:對于一些專業(yè)性強(qiáng)的場景,或者為了系統(tǒng)性地測試某一類問題,可以由領(lǐng)域?qū)<胰斯ぞ帉憸y試用例。例如一個和病人溝通的病情診斷機(jī)器人,可以由資深醫(yī)生編寫測試數(shù)據(jù)(包括問題和正確的回答)。
  • LLM合成:也可以利用大模型來生成大規(guī)模的測試數(shù)據(jù),但是需要注意檢查模型生成數(shù)據(jù)的質(zhì)量。如果生成的問題沒有代表性或者隱含著基本的事實錯誤,會對測試結(jié)果造成很大的影響。

人工標(biāo)注:定義“黃金標(biāo)準(zhǔn)” : 這是構(gòu)建數(shù)據(jù)集過程中最耗費(fèi)人力但也是價值最高的環(huán)節(jié)。由專家對收集到的數(shù)據(jù)進(jìn)行標(biāo)注,即為每個輸入提供一個理想的“標(biāo)準(zhǔn)答案”或質(zhì)量評分 。

-明確標(biāo)準(zhǔn):標(biāo)注過程本身就是一個強(qiáng)迫團(tuán)隊清晰、明確地定義評測標(biāo)準(zhǔn)的過程。例如,什么是“完整”的回答?什么程度的語氣才算“有同理心”?

-多重標(biāo)注與一致性檢驗:為了保證標(biāo)注質(zhì)量,最佳實踐是讓多名標(biāo)注員獨(dú)立對同一份數(shù)據(jù)進(jìn)行標(biāo)注。只有當(dāng)大多數(shù)標(biāo)注員(如三人中的兩人)達(dá)成共識時,這個標(biāo)簽才被采納為最終的“標(biāo)準(zhǔn)答案” 。這有助于消除個人主觀偏見,確保數(shù)據(jù)集的可靠性。

數(shù)據(jù)集構(gòu)成確保多樣性與平衡性

數(shù)據(jù)集必須在多個維度上具有多樣性,以模擬真實世界的復(fù)雜性,例如覆蓋不同的用戶畫像、主題、提問風(fēng)格和語言復(fù)雜度 。

同時要避免數(shù)據(jù)不平衡,即某個類別的問題被過度代表,這可能導(dǎo)致評測結(jié)果產(chǎn)生偏差。

常見的數(shù)據(jù)集構(gòu)成

  • 常規(guī):業(yè)務(wù)場景中最常見的數(shù)據(jù)類型
  • 邊緣:業(yè)務(wù)場景中不常見,但是有可能出現(xiàn)的數(shù)據(jù)類型
  • 對抗:影響系統(tǒng)和應(yīng)用正常運(yùn)行的有害數(shù)據(jù)輸入

快速啟動,迭代擴(kuò)展

不需要在一開始就構(gòu)建一個包含數(shù)千個樣本的龐大數(shù)據(jù)集。一個由20-50個高質(zhì)量、多樣性的樣本組成的初始數(shù)據(jù)集,就足以啟動評測流程。

關(guān)鍵在于建立一個持續(xù)的流程,隨著對應(yīng)用失敗模式的理解加深,不斷地將新的、有挑戰(zhàn)性的案例補(bǔ)充到數(shù)據(jù)集中。

一個“黃金”數(shù)據(jù)集不是一成不變的靜態(tài)文件。它是一個動態(tài)的、與產(chǎn)品共同成長的“活”的資產(chǎn)。

當(dāng)在生產(chǎn)環(huán)境發(fā)現(xiàn)了新的用戶行為模式,或當(dāng)紅隊測試發(fā)現(xiàn)了新的系統(tǒng)漏洞時,這些新的數(shù)據(jù)都必須被吸收、標(biāo)注,并整合回“黃金”數(shù)據(jù)集 。這個反饋閉環(huán)將生產(chǎn)環(huán)境的洞察力源源不斷地注入到評測流程中,使得評測體系隨著時間的推移變得越來越強(qiáng)大和全面。

二、評測環(huán)節(jié)和測試活動

從最初的產(chǎn)品構(gòu)思到生產(chǎn)環(huán)境的維護(hù), 在每個階段都需要評估,這些工作流程環(huán)環(huán)相扣:

  1. 方案選型開始,找到最佳方案。
  2. 在發(fā)布前進(jìn)行壓力測試紅隊測試,為各種情況做準(zhǔn)備。
  3. 應(yīng)用上線后,安全護(hù)欄可以幫助預(yù)防重大問題。
  4. 產(chǎn)品投放市場后,通過生產(chǎn)可觀察性持續(xù)監(jiān)控實時數(shù)據(jù)。
  5. 如果出現(xiàn)問題,修復(fù)后運(yùn)行回歸測試,然后推出更新。

評測環(huán)節(jié)

測試活動

1)選型測試:為AI產(chǎn)品選擇最佳的模型、提示詞或其他配置

項目剛開始時,第一步通常是進(jìn)行技術(shù)方案選型,首先要為任務(wù)選擇一個模型, 可以查看模型排行榜挑選幾個候選LLM,并在具體任務(wù)上進(jìn)行測試。另一個常見的選型任務(wù)是找到最佳提示詞,對比不同提示詞下的輸出小效果。

2)壓力測試:通過評估產(chǎn)品在各種場景下的表現(xiàn),檢查它是否為實際上線使用做好了準(zhǔn)備。

壓力測試旨在檢查當(dāng)前版本的產(chǎn)品是否足夠健壯,能否應(yīng)對用戶可能拋出的各種問題。 系統(tǒng)可能在十幾個測試用例數(shù)據(jù)上運(yùn)行良好,但幾百、幾千個呢?壓力測試需要更多的測試數(shù)據(jù),既要覆蓋常見的場景,也要考察系統(tǒng)如何處理更棘手的邊緣情況。

  • 如果用戶的輸入只有一個詞怎么辦?如果太長了呢?
  • 如果輸入用的是另一種語言或包含錯別字呢?
  • 系統(tǒng)如何處理它不應(yīng)涉及的敏感話題?

設(shè)計這些測試需要深入了解用戶如何與產(chǎn)品互動,盡可能對每個主題或場景都進(jìn)行測試。

3)紅隊測試:測試我們的系統(tǒng)如何響應(yīng)對抗性行為或惡意輸入

紅隊測試是一種模擬攻擊的測試技術(shù),例如通過提示注入等方式,發(fā)現(xiàn)系統(tǒng)中的漏洞。這是評估高風(fēng)險應(yīng)用安全性的關(guān)鍵步驟,專門針對濫用或者故意的有害行為。它尋找的是惡意用戶如何利用系統(tǒng)缺陷,將行為推向不安全或意外(如提供有害建議)的方法。

例如,對于一個醫(yī)療聊天機(jī)器人,測試它如何安全地處理醫(yī)療問題屬于核心功能范圍。但對于一個產(chǎn)品客服機(jī)器人,醫(yī)療、金融或法律問題就超出了預(yù)期用途,可被視為對抗性輸入。

紅隊測試可以手動進(jìn)行,也可以通過合成數(shù)據(jù)和有針對性的提示來自動化地模擬各種風(fēng)險。

4)生產(chǎn)環(huán)境監(jiān)控:了解系統(tǒng)在生產(chǎn)環(huán)境中的實時性能,以便檢測和解決問題。

在測試環(huán)境中評估終究有限。當(dāng)產(chǎn)品面向真實用戶后, 需要了解它在實際使用中的表現(xiàn)。這就引出了生產(chǎn)環(huán)境可觀察性。一旦產(chǎn)品上線, 就需要追蹤性能。

可以從追蹤用戶行為開始,比如收集點擊率或點贊/點踩等反饋。但要獲得更深入的洞察, 就需要追蹤用戶提出的問題以及系統(tǒng)如何響應(yīng)。收集跟蹤記錄所有交互的詳細(xì)日志。

用戶體驗好嗎?回答是否準(zhǔn)確、安全?

有了這些日志數(shù)據(jù), 就可以通過運(yùn)行在線評估來評價生產(chǎn)環(huán)境中的質(zhì)量。

5)回歸測試:測試新的改動是否在改進(jìn)系統(tǒng)的同時,沒有破壞以前正常工作的功能。

回歸測試能驗證所做的更改或優(yōu)化沒有引入新的(或舊的)問題。

  • 修復(fù)一個問題后,會不會影響其他功能?
  • 微調(diào)一個提示后,有多少以前的輸出會改變?這些改變是好是壞?

系統(tǒng)化的回歸測試可以安全地在現(xiàn)有系統(tǒng)之上進(jìn)行迭代,確保在做出改進(jìn)的同時,沒有引入新的問題。

本文由 @Mrs.Data 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!