安全是最大奢侈:HealthBench是刷榜工具還是醫(yī)療AI能力驅(qū)動器?

0 評論 896 瀏覽 0 收藏 19 分鐘

在醫(yī)療領(lǐng)域,AI的安全性至關(guān)重要。從Character AI導致的悲劇到醫(yī)療AI的幻覺問題,安全一直是核心議題。本文將探討OpenAI推出的HealthBench評估標準,分析其在醫(yī)療AI性能和安全性評估中的作用,以及如何通過數(shù)據(jù)篩選、模型架構(gòu)和評測體系提升醫(yī)療AI的可靠性和實用性。

前些天在《高層論壇:實現(xiàn)汽車產(chǎn)業(yè)高質(zhì)量發(fā)展》有一句話令人印象深刻:對智能駕駛來說,安全是最大的奢侈

而對于醫(yī)療AI來說,也是如此,比如這篇文章《DeepSeek醫(yī)院部署:730+醫(yī)院應(yīng)用場景總結(jié)》的評論部分很有意思:

這里其實有個問題:大家為什么這么關(guān)注AI在醫(yī)院場景實際的效果呢?答案很簡單,就是醫(yī)療安全問題!

2024年2月28日,美國佛羅里達州的14歲男孩塞維爾·塞澤三世(Sewell Setzer Ⅲ)在與Character AI上的AI角色進行長時間聊天后開槍自殺身亡。

后來,她的母親對Character AI提起訴訟,認為Character AI以“擬人化、過度性化和令人恐懼的逼真體驗”導致她兒子對AI角色上癮,并深陷其中。

模型是通過海量語料進行訓練的,基于模型的AI產(chǎn)品背后擁有成百上千的SOP。

無論是對模型投喂的數(shù)據(jù),還是用于“取悅”用戶的SOP,背后會涉及大量行為學、心理學等知識,意思是:如果我們想,用戶與AI聊天甚至可以達到游戲的體驗!

事實上,模型本身就具備這種能力,比如大模型的“諂媚”特性就尤其突出!

所謂“諂媚”,就是模型很容易被引導,從而給到贊同、符合你心理預(yù)期的回答,而這對于心智缺乏的用戶可能導致巨大問題!

舉個例子:用戶曾經(jīng)可能只是比較消極,而且他懵懵懂懂,但由于更大模型的對話過程中,消極的情緒會被進一步擴大,并且大模型會有理有據(jù)證明用戶的消極,這種高端思維來源于先哲的思辨,對心智缺失的用戶會造成降維打擊,從而引發(fā)巨大的心理沖擊,而過程中一個引導不利就可能導致錯誤行為…

所以,現(xiàn)在很多政策正在要求互聯(lián)網(wǎng)產(chǎn)品主動披露其在產(chǎn)品設(shè)計方面的“暗黑模式”,或立法對“暗黑模式”進行限制。

拋開應(yīng)用層的包裝與引導,這里我們回歸模型本身,模型本身其實也挺不安全的…

據(jù)Vectara HHEM人工智能幻覺測試,DeepSeek-R1顯示出14.3%的幻覺率,是V3的近3倍:

基于此,各個大佬會認為AI產(chǎn)品首先會在垂直領(lǐng)域爆發(fā)。

比如,紅杉AI峰會進一步指出:企業(yè)級市場中,真正先跑出來的入口未必是通用大模型,而是 Harvey(法律)、Open Evidence(醫(yī)療)這類垂直領(lǐng)域智能體 OS,因為它們能聽懂行業(yè)語言,理解真實需求。

為了解決這個問題,有些團隊在數(shù)據(jù)源頭解決問題:

OpenEvidence

比如OpenEvidence,他是一款專為醫(yī)生設(shè)計的 AI 專業(yè)診斷 Copilot,他近期獲得了7500美元的融資,固執(zhí)10億美元。

面對醫(yī)學知識的爆炸式增長和臨床信息的嚴重過載,OpenEvidence 致力于用類似垂直領(lǐng)域 Deep Research 的產(chǎn)品形態(tài),幫助醫(yī)生提高診斷效率與決策質(zhì)量。

其核心在于醫(yī)療相關(guān)的資料特別豐厚,并且每句回答均標注交叉引用編號,在文末附上參考文獻清單,確保信息的可溯源性和驗證性。

在這個層面上他做到了,醫(yī)療產(chǎn)出的每句話都有出處,這對于提升醫(yī)療AI的置信度是是否有幫助的。

而且其內(nèi)容多來自頂級期刊,這對其數(shù)據(jù)質(zhì)量有了基本的保證,具體實現(xiàn)路徑大概如下:

但要真的將醫(yī)療AI相關(guān)產(chǎn)品做好,其實是需要一套標準的,近來OpenAI就提出了這類標準:

HealthBench

OpenAI推出新的AI健康系統(tǒng)評估標準HealthBench,其內(nèi)有來自60個國家/地區(qū)的262位醫(yī)生合力打造的5000個真實醫(yī)療對話場景,用于評估AI模型在醫(yī)療領(lǐng)域的性能和安全性。

這是什么意思呢:

首先,OpenAI提出了一套用于評估醫(yī)療AI安全有效的標準體系;

其次,他們的模型在這套體系中毫無疑問拿下了最高分;

說實話,這種事情是有點扯的,因為每一個提出評估模型的團隊,特別是基座模型團隊,完全可以基于問題做特別訓練,俗稱刷榜,這里的意思是:后面發(fā)出的模型一定比前面的強,但是不是真的強就不知道了…

但無論如何,只要能建立一套真的好用的AI醫(yī)生評價體系,這件事是功德無量的,至于其他公司用不用,再說

但看現(xiàn)有AI醫(yī)療的評估體系,其實是很業(yè)余的,因為他們更多是在測試考試(做題),這里有三個問題:

  1. 未能還原真實醫(yī)療場景,真實場景是不存在做題的,是復(fù)雜的多輪問詢;
  2. 缺乏基于專家意見的嚴格驗證,就算是真實的醫(yī)患對話,其實也不知道到底對不對,因為沒人真的去評價;
  3. 難以為前沿模型提供提升空間,以之前刷題的測試來說,分刷的高其實也無所謂,因為并不解決實際問題;

于是,OpenAI在這個基礎(chǔ)下提出了HealthBench:

  • 有現(xiàn)實意義(Meaningful):評分應(yīng)反映真實世界影響。突破傳統(tǒng)考試題的局限,精準捕捉患者與臨床工作者使用模型時的復(fù)雜現(xiàn)實場景和工作流程。
  • 值得信賴(Trustworthy):評分須真實體現(xiàn)醫(yī)師判斷。評估標準必須符合醫(yī)療專業(yè)人員的核心訴求與行業(yè)規(guī)范,為AI系統(tǒng)優(yōu)化提供嚴謹依據(jù)。
  • 未飽和(Unsaturated):基準測試應(yīng)推動進步?,F(xiàn)有模型必須展現(xiàn)顯著改進空間,持續(xù)激勵開發(fā)者提升系統(tǒng)性能。

OpenAI的模型在這里是否遠超人類我們不去多說,先看看他這個測試方法是什么?

測試方法與數(shù)據(jù)(重要)

一個 HealthBench 示例包含一段對話,以及醫(yī)生針對該對話編寫的評分細則?;谀P偷脑u分器會按照每條細則為模型回復(fù)打分:

也就是說,每條模型回復(fù)都會依據(jù)針對該對話量身定制的評分量表進行打分。

具體而言,每個評測樣例包含:

  • 對話:由模型與用戶的若干消息組成,并以一條用戶消息收尾;
  • 評分細則:說明在該對話情境下,回復(fù)應(yīng)當被獎勵或懲罰的行為屬性;

評分細則的內(nèi)容既可以是必須提及的具體事實(例如應(yīng)服用何種藥物及劑量),也可以是期望的行為要素(例如詢問用戶更多膝蓋疼痛細節(jié),以便獲得更精準的診斷)。

每條細則都對應(yīng)一個非零分值,范圍為 ?10 至 10,其中負分代表不期望出現(xiàn)的行為。

具體評分流程為:

  1. 模型評分器逐條獨立判斷回復(fù)是否滿足相應(yīng)細則。
  2. 若滿足,則給予該細則的滿分;否則不給分。
  3. 對負向細則亦同:若觸犯,則按定義扣除相應(yīng)負分。
  4. 將所有已滿足細則的分值(正分與扣分)相加,得到該樣例的總分。
  5. 再將該總分除以該樣例的最高可能得分,得到該樣例的最終得分。

而HealthBench 包含 5000 個評測樣例,每個樣例由一段對話和一組評分標準(rubric criteria)組成。

對話可能是單輪(僅有用戶消息)或多輪(用戶與模型交替,最后以用戶消息結(jié)束)。

平均來看,每段對話有 2.6 輪,總長度 約 668 個字符(含用戶與模型消息),整體范圍從 1 到 19 輪、從 4 到 9,853 個字符。

一個典型樣例包含 11 條由醫(yī)生專為該樣例撰寫的評分標準;最少有 2 條,最多可達 48 條

PS:其實僅僅從這個角度來說,測試基數(shù)是有點小的,然后根據(jù)我之前真實經(jīng)驗,醫(yī)患對話其實在10輪以上是更多的

具體再來看看其測試數(shù)據(jù)來源:

  1. 合成對話(主要),與醫(yī)師合作,首先列舉在評測中應(yīng)覆蓋的重要場景;
  2. 醫(yī)師紅隊數(shù)據(jù)(次要),來自醫(yī)師對大模型在醫(yī)療場景中的“紅隊攻擊”測試 (Pfohl 等, 2024),聚焦模型薄弱或回答不當?shù)奶釂枺?/li>
  3. HealthSearchQA 改寫,HealthSearchQA 是 Google 發(fā)布的高頻健康搜索問答數(shù)據(jù)集 (Singhal 等, 2023);

從這個角度來說,這些數(shù)據(jù)其實全部是虛構(gòu)的…

虛構(gòu)的原因可能是真實場景患者“廢話太多”,或者醫(yī)生根本沒有想過語料,這個事情其實我之前也做過,只不過我們是根據(jù)臨床指南或者病例合成對話,從這個角度來說,這個實驗其實不太嚴謹。

評分維度 ??

HealthBench 示例被劃分為七個主題(themes),每個主題對應(yīng)真實世界健康交互中的一個關(guān)鍵任務(wù)場景。

每個主題下面包含大量示例,且每個示例都有一套獨立的評分量表(rubric)。

在每份量表中,每條評分標準都會標注其所屬“評價軸”(axis),用來說明該標準衡量的是模型行為的哪個方面。

通過同時按“主題”與“評價軸”匯報結(jié)果,HealthBench 可以對模型性能進行更細粒度的拆解與分析。

一、主題

下表給出了七大主題在 5 000 個示例中的分布情況:

以下簡要說明各主題評測的核心能力:

  1. 緊急就醫(yī)建議:考察模型能否識別醫(yī)療急癥并及時引導用戶就醫(yī)。誤判(錯過升級或過度升級)都可能造成傷害或加重醫(yī)療系統(tǒng)負擔。
  2. 主動補充關(guān)鍵信息:現(xiàn)實中用戶往往無法一次性提供完整病情。該主題評估模型能否識別信息缺口并主動詢問關(guān)鍵背景。
  3. 全球健康:衡量模型在醫(yī)療資源匱乏或地區(qū)差異明顯的環(huán)境下,能否因地制宜給出可行建議。
  4. 健康數(shù)據(jù)任務(wù):聚焦結(jié)構(gòu)化醫(yī)療文檔撰寫、決策支持、科研匯總等場景,要求高準確度,因為錯誤會在后續(xù)護理鏈條中被放大。
  5. 受眾專業(yè)度匹配溝通:評估模型能否區(qū)分用戶角色(醫(yī)務(wù)人員 vs. 普通大眾)并用合適的術(shù)語深度表達。
  6. 不確定情境下的應(yīng)答:醫(yī)學常伴隨不確定性。該主題檢查模型能否識別證據(jù)不足場景并以相稱的語氣表達不確定。
  7. 答復(fù)深度控制:不同情境需要不同詳略。過簡可能遺漏關(guān)鍵信息,過繁又可能淹沒重點。此主題評估模型調(diào)整答復(fù)深度的能力。

二、評價軸(Axes)

每條評分標準都會標注一個“評價軸”,用來描述它衡量的行為維度。所有標準共分為五個核心軸,如下表所示:

  • 準確性:檢查回答是否僅包含與最新醫(yī)學共識一致的正確信息,并在證據(jù)薄弱處體現(xiàn)出不確定。
  • 完整性:即使回答正確,若遺漏關(guān)鍵步驟或風險癥狀,仍可能導致風險。該軸關(guān)注信息是否充分、全面。
  • 溝通質(zhì)量:評價回答是否條理清晰、語言精煉,技術(shù)深度與詞匯是否與用戶匹配。
  • 情境感知:衡量模型能否利用已給出的情境線索(如用戶角色、地理資源等)并在必要時主動追問。
  • 指令遵循:當用戶要求特定格式或轉(zhuǎn)換結(jié)構(gòu)化文檔時,模型是否在保證安全的前提下嚴格按要求輸出。

通過在七大主題與五條評價軸的雙重坐標系下統(tǒng)計得分,HealthBench 能夠呈現(xiàn)醫(yī)療大模型的性能長板與短板,為后續(xù)安全改進與能力提升提供有針對性的方向。

其后,OpenAI做了很多動作,比如讓專業(yè)醫(yī)生給出最合理的作答,一判斷模型的答案與真人答案的一致性。

最后給兩個案例:

案例

下列 案例 A 與 案例 B 均展示了 4–5 輪問答,便于演示 :

  1. 醫(yī)生如何?主動補充關(guān)鍵信息;
  2. 何時?及時升級緊急就醫(yī);

案例 A · 緊急就醫(yī)建議

主題歸屬:1 緊急就醫(yī)建議 + 2 主動補充關(guān)鍵信息

場景:48 歲男性突發(fā)胸痛,醫(yī)生需迅速排除急性冠脈綜合征

案例 B · 主動補充關(guān)鍵信息

主題歸屬:2 主動補充關(guān)鍵信息 + 7 答復(fù)深度控制

場景:膝蓋上樓“咔噠”聲,無痛感,醫(yī)生需確認背景并給出分層建議

結(jié)語

從“安全是最大的奢侈”到 HealthBench 的七大主題、五條評價軸,我們看到:只有把安全內(nèi)嵌進數(shù)據(jù)源篩選、模型架構(gòu)、評測體系和臨床流程,醫(yī)療 AI 才能真正邁出實驗室,服務(wù)真實病患。

無論是 OpenEvidence 以純血級文獻打造可溯源 Copilot,還是 HealthBench 用多輪對話和醫(yī)生 rubric 還原臨床復(fù)雜度,背后指向的都是同一句話——在生命健康面前,準確、透明、可追責的 AI 不是加分項,而是入場券。

下一階段,唯有產(chǎn)業(yè)各方攜手:算法團隊持續(xù)降低幻覺率,醫(yī)療機構(gòu)參與真實場景驗證,監(jiān)管部門完善合規(guī)沙盒,創(chuàng)業(yè)者深耕垂直需求,才能讓“安全”從奢侈品變成標配,讓技術(shù)的光照進每一間診室。

只不過這里OpenAI的HealthBench感覺依舊不能完全還原真實場景,還是沒跳出AI評測答題的邏輯,作弊成本很低…

本文由人人都是產(chǎn)品經(jīng)理作者【葉小釵】,微信公眾號:【葉小釵】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!