大模型驅(qū)動(dòng)的產(chǎn)品評(píng)測(cè)方案(一):評(píng)測(cè)的戰(zhàn)略必要性

0 評(píng)論 400 瀏覽 3 收藏 11 分鐘

在AI重塑產(chǎn)品邏輯的時(shí)代,評(píng)測(cè)不再只是“驗(yàn)證功能”,而是“定義價(jià)值”。本篇作為系列首發(fā),將從戰(zhàn)略視角切入,解析為何評(píng)測(cè)必須前置于產(chǎn)品設(shè)計(jì)與運(yùn)營(yíng)之中,成為連接用戶認(rèn)知與產(chǎn)品能力的關(guān)鍵樞紐。

本文面向受眾:

參與大模型應(yīng)用設(shè)計(jì)和開發(fā)的所有人員,包括不限于(產(chǎn)品經(jīng)理、開發(fā)、算法、測(cè)試人員、業(yè)務(wù)人員)

內(nèi)容導(dǎo)讀:

評(píng)測(cè)的戰(zhàn)略必要性 (是什么、為什么)

不同崗位人員的分工(誰(shuí)來(lái)評(píng))

目標(biāo):

  • 幫助產(chǎn)研團(tuán)隊(duì)和業(yè)務(wù)人員對(duì)大模型應(yīng)用評(píng)測(cè)形成全面認(rèn)知,知道自己在整個(gè)工作流中扮演著什么樣的角色
  • 搭建一套評(píng)測(cè)方法論,為內(nèi)部提供一份可操作的指南,構(gòu)建一套屬于自己的、全面的應(yīng)用評(píng)估設(shè)計(jì)框架
  • 調(diào)研主流評(píng)測(cè)平臺(tái)和評(píng)測(cè)框架,為技術(shù)棧和平臺(tái)選型提供參考

評(píng)測(cè)的戰(zhàn)略必要性

什么是大模型應(yīng)用評(píng)測(cè)

大模型應(yīng)用評(píng)測(cè):評(píng)估的是大模型所賦能的產(chǎn)品或系統(tǒng)在特定任務(wù)上的表現(xiàn)。不僅包括模型部分需要評(píng)估,還包括其他部分:提示詞、工作流邏輯、用于增強(qiáng)回答效果的知識(shí)庫(kù)等等。

模型基準(zhǔn)測(cè)試像學(xué)校考試,衡量的是通用技能;而產(chǎn)品和應(yīng)用層面的評(píng)估更像是工作績(jī)效考核,檢驗(yàn)的是系統(tǒng)在它所“受雇”的特定崗位上是否表現(xiàn)出色。下表總結(jié)了大模型應(yīng)用評(píng)測(cè)和傳統(tǒng)軟件測(cè)試、大模型基準(zhǔn)測(cè)試有何區(qū)別:

為什么要進(jìn)行大模型應(yīng)用評(píng)測(cè)

無(wú)法評(píng)估,就無(wú)法管理。

大模型的特性帶來(lái)新的挑戰(zhàn)

大模型獨(dú)特的性質(zhì)導(dǎo)致傳統(tǒng)的軟件測(cè)試已經(jīng)無(wú)法全面評(píng)估相關(guān)產(chǎn)品的質(zhì)量或用來(lái)定位系統(tǒng)的問題了。為了應(yīng)對(duì)以下大模型所帶來(lái)的特殊問題,評(píng)測(cè)必須存在:

非確定性輸出:傳統(tǒng)軟件的輸入與輸出是固定的,而 LLM 對(duì)同一輸入可能產(chǎn)生多種有效輸出。因此評(píng)測(cè)的目標(biāo)不再是驗(yàn)證唯一的正確答案,而是確保所有潛在輸出都落在可接受的范圍內(nèi)。

結(jié)果質(zhì)量定義的主觀性:傳統(tǒng)軟件測(cè)試由工程團(tuán)隊(duì)負(fù)責(zé);而LLM的輸出,還需業(yè)務(wù)人員等非技術(shù)方評(píng)估;對(duì)于創(chuàng)意、摘要等生成式任務(wù),也不存在唯一的“標(biāo)準(zhǔn)答案”

獨(dú)特的失敗模式:LLM 帶來(lái)的風(fēng)險(xiǎn)并非傳統(tǒng)“bug”,而是需專門評(píng)估的特殊屬性

  • 幻覺:生成看似合理但與事實(shí)不符的信息。
  • 偏見:學(xué)習(xí)并放大訓(xùn)練數(shù)據(jù)中的社會(huì)偏見。
  • 提示敏感性:輸入內(nèi)容的微小變化可能會(huì)導(dǎo)致輸出結(jié)果的質(zhì)量劇烈波動(dòng)。
  • 提示注入和越獄:惡意用戶可能通過精心設(shè)計(jì)的提示詞,繞過模型的安全護(hù)欄,誘使其生成有害或被禁止的內(nèi)容,或者泄露其訓(xùn)練數(shù)據(jù)或上下文中包含的個(gè)人隱私或商業(yè)機(jī)密

衡量產(chǎn)品是否成功

當(dāng)我們需要說服非技術(shù)背景的業(yè)務(wù)人員參與評(píng)測(cè),或者說服領(lǐng)導(dǎo)層支持評(píng)測(cè),最核心的問題是:我們?yōu)槭裁匆度胭Y源進(jìn)行評(píng)測(cè)?

一個(gè)健全的評(píng)測(cè)體系能夠清晰地將抽象的指標(biāo)與具體的業(yè)務(wù)成果聯(lián)系起來(lái)。通過評(píng)測(cè)可以回答以下關(guān)鍵問題:

  • 當(dāng)前產(chǎn)品是否能滿足我們定義給它的特定任務(wù)和需求,滿足到什么程度?
  • 用戶使用情況是否符合預(yù)期?用戶滿意度如何?
  • 產(chǎn)品或系統(tǒng)運(yùn)行的怎么樣?能夠應(yīng)對(duì)狀況之外的場(chǎng)景或問題嗎?能覆蓋邊緣和風(fēng)險(xiǎn)情況嗎?

定位問題快速迭代

如果沒有良好的評(píng)估體系,團(tuán)隊(duì)很容易陷入“原地打轉(zhuǎn)”的困境,不斷地進(jìn)行修改,卻無(wú)法確定這些修改是否真正提升了產(chǎn)品性能。

評(píng)估體系為每一次迭代提供了必要的“量化反饋”,驗(yàn)證了關(guān)于改進(jìn)的假設(shè)是否成立,并確保了團(tuán)隊(duì)在正確的方向上前進(jìn),形成“構(gòu)建-部署-評(píng)估-記錄-迭代”組成的快速、可驗(yàn)證的循環(huán)。

不同崗位人員的分工

產(chǎn)品經(jīng)理

產(chǎn)品經(jīng)理是評(píng)測(cè)的發(fā)起者需求的源頭

1)評(píng)測(cè)設(shè)計(jì)階段:

  • 定義業(yè)務(wù)目標(biāo)與指標(biāo):明確本次評(píng)測(cè)要驗(yàn)證的假設(shè)是什么(如:AI客服能否將用戶滿意度從80%提升到90%?)。
  • 定義用戶場(chǎng)景:描述用戶會(huì)在什么情境下使用這個(gè)功能,他們的核心訴求是什么。這是構(gòu)建評(píng)測(cè)集的基礎(chǔ)。
  • 定義“可接受”的質(zhì)量門檻:與團(tuán)隊(duì)一起決定,例如,“幻覺率低于5%”或“答案采納率達(dá)到70%”才能上線。
  • 定義主觀指標(biāo):對(duì)于“風(fēng)格”、“趣味性”等主觀指標(biāo),給出明確的定義和判斷標(biāo)準(zhǔn)。

2)結(jié)果分析與決策階段:

  • 解讀業(yè)務(wù)價(jià)值:從用戶和商業(yè)視角解讀評(píng)測(cè)報(bào)告,判斷當(dāng)前版本是否達(dá)到上線標(biāo)準(zhǔn)。
  • 做出決策:根據(jù)評(píng)測(cè)結(jié)果,決定下一步的行動(dòng):是上線發(fā)布、繼續(xù)優(yōu)化還是調(diào)整方向?
  • 劃分優(yōu)先級(jí):如果評(píng)測(cè)暴露出多個(gè)問題,由產(chǎn)品經(jīng)理決定優(yōu)先修復(fù)哪些問題(如:“事實(shí)錯(cuò)誤”的優(yōu)先級(jí)高于“語(yǔ)氣生硬”)

業(yè)務(wù)/領(lǐng)域?qū)<?/h3>

業(yè)務(wù)專家是評(píng)測(cè)質(zhì)量的基石,尤其在專業(yè)領(lǐng)域(如醫(yī)療、金融、法律)。

1)評(píng)測(cè)設(shè)計(jì)階段:

  • 提供高質(zhì)量的評(píng)測(cè)數(shù)據(jù):編寫或?qū)徍嗽u(píng)測(cè)用的問題和“標(biāo)準(zhǔn)答案”。
  • 定義領(lǐng)域內(nèi)的“紅線”:指出哪些是絕對(duì)不能出錯(cuò)的專業(yè)常識(shí)或合規(guī)要求。例如,在醫(yī)療領(lǐng)域,絕對(duì)不能推薦錯(cuò)誤的藥品劑量。
  • 識(shí)別“陷阱”問題:設(shè)計(jì)能夠暴露模型深層次問題的邊緣案例。

2)評(píng)測(cè)執(zhí)行階段:

  • 進(jìn)行人工評(píng)測(cè):對(duì)模型生成的專業(yè)內(nèi)容進(jìn)行打分和標(biāo)注,判斷其準(zhǔn)確性、專業(yè)性和可靠性。專家的標(biāo)注是評(píng)測(cè)中最寶貴的“黃金數(shù)據(jù)”。
  • 提供定性反饋:不僅給出“對(duì)/錯(cuò)”的結(jié)論,還要解釋“為什么錯(cuò)”,為產(chǎn)品優(yōu)化提供方向。

開發(fā)人員

開發(fā)人員是評(píng)測(cè)的技術(shù)支撐執(zhí)行主體。

1)評(píng)測(cè)設(shè)計(jì)與準(zhǔn)備階段:

  • 構(gòu)建評(píng)測(cè)工具與平臺(tái):開發(fā)自動(dòng)化評(píng)測(cè)流水線、人工標(biāo)注平臺(tái)、結(jié)果可視化看板等。
  • 提供技術(shù)指標(biāo)建議:建議使用哪些技術(shù)指標(biāo)(如精確率、召回率、BLEU、ROUGE)來(lái)衡量特定任務(wù)。
  • 實(shí)現(xiàn)評(píng)測(cè)邏輯:將產(chǎn)品和業(yè)務(wù)定義的指標(biāo),通過代碼實(shí)現(xiàn)為可執(zhí)行的評(píng)測(cè)腳本。

2)評(píng)測(cè)執(zhí)行與分析階段:

  • 執(zhí)行自動(dòng)化評(píng)測(cè):運(yùn)行評(píng)測(cè)腳本,獲取模型在各項(xiàng)技術(shù)指標(biāo)上的表現(xiàn)。
  • 分析技術(shù)根因:深入分析badcase,從模型、算法、數(shù)據(jù)、提示詞等技術(shù)層面定位問題根源。

3)迭代優(yōu)化階段:

  • 修復(fù)問題:根據(jù)分析結(jié)果,進(jìn)行優(yōu)化操作。
  • 模型選型:評(píng)測(cè)和比較不同基礎(chǔ)模型或API,為技術(shù)選型提供數(shù)據(jù)支持。

測(cè)試人員

測(cè)試人員的角色從傳統(tǒng)的功能測(cè)試,演變?yōu)锳I質(zhì)量保障的組織者和度量者

1)評(píng)測(cè)設(shè)計(jì)階段:

  • 設(shè)計(jì)評(píng)測(cè)方案與流程:制定詳細(xì)的評(píng)測(cè)計(jì)劃,明確評(píng)測(cè)范圍、方法、資源和時(shí)間表,確保評(píng)測(cè)過程的科學(xué)性和一致性。
  • 管理評(píng)測(cè)數(shù)據(jù)集:負(fù)責(zé)評(píng)測(cè)集的創(chuàng)建、版本控制、維護(hù)和擴(kuò)充,保證評(píng)測(cè)標(biāo)準(zhǔn)的一致性。
  • 設(shè)計(jì)評(píng)測(cè)用例:專注于發(fā)現(xiàn)邊界條件、魯棒性問題和潛在的安全漏洞。

2)評(píng)測(cè)執(zhí)行與管理階段:

  • 組織和協(xié)調(diào)評(píng)測(cè)活動(dòng):無(wú)論是自動(dòng)化測(cè)試的執(zhí)行,還是協(xié)調(diào)業(yè)務(wù)專家進(jìn)行人工評(píng)測(cè),都由測(cè)試人員來(lái)組織和推進(jìn)。
  • 聚合與呈現(xiàn)結(jié)果:收集所有自動(dòng)化和人工評(píng)測(cè)的數(shù)據(jù),進(jìn)行匯總分析,并生成多維度的質(zhì)量報(bào)告或看板。
  • 執(zhí)行回歸測(cè)試:在開發(fā)人員修復(fù)問題后,進(jìn)行回歸評(píng)測(cè),確保舊的問題已解決且未引入新問題。

本文由 @Mrs.Data 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!