安全是最大奢侈:HealthBench是刷榜工具還是醫(yī)療AI能力驅(qū)動(dòng)器?
在醫(yī)療領(lǐng)域,AI的安全性至關(guān)重要。從Character AI導(dǎo)致的悲劇到醫(yī)療AI的幻覺問題,安全一直是核心議題。本文將探討OpenAI推出的HealthBench評(píng)估標(biāo)準(zhǔn),分析其在醫(yī)療AI性能和安全性評(píng)估中的作用,以及如何通過數(shù)據(jù)篩選、模型架構(gòu)和評(píng)測(cè)體系提升醫(yī)療AI的可靠性和實(shí)用性。
前些天在《高層論壇:實(shí)現(xiàn)汽車產(chǎn)業(yè)高質(zhì)量發(fā)展》有一句話令人印象深刻:對(duì)智能駕駛來說,安全是最大的奢侈
而對(duì)于醫(yī)療AI來說,也是如此,比如這篇文章《DeepSeek醫(yī)院部署:730+醫(yī)院應(yīng)用場(chǎng)景總結(jié)》的評(píng)論部分很有意思:
這里其實(shí)有個(gè)問題:大家為什么這么關(guān)注AI在醫(yī)院場(chǎng)景實(shí)際的效果呢?答案很簡(jiǎn)單,就是醫(yī)療安全問題!
2024年2月28日,美國(guó)佛羅里達(dá)州的14歲男孩塞維爾·塞澤三世(Sewell Setzer Ⅲ)在與Character AI上的AI角色進(jìn)行長(zhǎng)時(shí)間聊天后開槍自殺身亡。
后來,她的母親對(duì)Character AI提起訴訟,認(rèn)為Character AI以“擬人化、過度性化和令人恐懼的逼真體驗(yàn)”導(dǎo)致她兒子對(duì)AI角色上癮,并深陷其中。
模型是通過海量語料進(jìn)行訓(xùn)練的,基于模型的AI產(chǎn)品背后擁有成百上千的SOP。
無論是對(duì)模型投喂的數(shù)據(jù),還是用于“取悅”用戶的SOP,背后會(huì)涉及大量行為學(xué)、心理學(xué)等知識(shí),意思是:如果我們想,用戶與AI聊天甚至可以達(dá)到游戲的體驗(yàn)!
事實(shí)上,模型本身就具備這種能力,比如大模型的“諂媚”特性就尤其突出!
所謂“諂媚”,就是模型很容易被引導(dǎo),從而給到贊同、符合你心理預(yù)期的回答,而這對(duì)于心智缺乏的用戶可能導(dǎo)致巨大問題!
舉個(gè)例子:用戶曾經(jīng)可能只是比較消極,而且他懵懵懂懂,但由于更大模型的對(duì)話過程中,消極的情緒會(huì)被進(jìn)一步擴(kuò)大,并且大模型會(huì)有理有據(jù)證明用戶的消極,這種高端思維來源于先哲的思辨,對(duì)心智缺失的用戶會(huì)造成降維打擊,從而引發(fā)巨大的心理沖擊,而過程中一個(gè)引導(dǎo)不利就可能導(dǎo)致錯(cuò)誤行為…
所以,現(xiàn)在很多政策正在要求互聯(lián)網(wǎng)產(chǎn)品主動(dòng)披露其在產(chǎn)品設(shè)計(jì)方面的“暗黑模式”,或立法對(duì)“暗黑模式”進(jìn)行限制。
拋開應(yīng)用層的包裝與引導(dǎo),這里我們回歸模型本身,模型本身其實(shí)也挺不安全的…
據(jù)Vectara HHEM人工智能幻覺測(cè)試,DeepSeek-R1顯示出14.3%的幻覺率,是V3的近3倍:
基于此,各個(gè)大佬會(huì)認(rèn)為AI產(chǎn)品首先會(huì)在垂直領(lǐng)域爆發(fā)。
比如,紅杉AI峰會(huì)進(jìn)一步指出:企業(yè)級(jí)市場(chǎng)中,真正先跑出來的入口未必是通用大模型,而是 Harvey(法律)、Open Evidence(醫(yī)療)這類垂直領(lǐng)域智能體 OS,因?yàn)樗鼈兡苈牰袠I(yè)語言,理解真實(shí)需求。
為了解決這個(gè)問題,有些團(tuán)隊(duì)在數(shù)據(jù)源頭解決問題:
OpenEvidence
比如OpenEvidence,他是一款專為醫(yī)生設(shè)計(jì)的 AI 專業(yè)診斷 Copilot,他近期獲得了7500美元的融資,固執(zhí)10億美元。
面對(duì)醫(yī)學(xué)知識(shí)的爆炸式增長(zhǎng)和臨床信息的嚴(yán)重過載,OpenEvidence 致力于用類似垂直領(lǐng)域 Deep Research 的產(chǎn)品形態(tài),幫助醫(yī)生提高診斷效率與決策質(zhì)量。
其核心在于醫(yī)療相關(guān)的資料特別豐厚,并且每句回答均標(biāo)注交叉引用編號(hào),在文末附上參考文獻(xiàn)清單,確保信息的可溯源性和驗(yàn)證性。
在這個(gè)層面上他做到了,醫(yī)療產(chǎn)出的每句話都有出處,這對(duì)于提升醫(yī)療AI的置信度是是否有幫助的。
而且其內(nèi)容多來自頂級(jí)期刊,這對(duì)其數(shù)據(jù)質(zhì)量有了基本的保證,具體實(shí)現(xiàn)路徑大概如下:
但要真的將醫(yī)療AI相關(guān)產(chǎn)品做好,其實(shí)是需要一套標(biāo)準(zhǔn)的,近來OpenAI就提出了這類標(biāo)準(zhǔn):
HealthBench
OpenAI推出新的AI健康系統(tǒng)評(píng)估標(biāo)準(zhǔn)HealthBench,其內(nèi)有來自60個(gè)國(guó)家/地區(qū)的262位醫(yī)生合力打造的5000個(gè)真實(shí)醫(yī)療對(duì)話場(chǎng)景,用于評(píng)估AI模型在醫(yī)療領(lǐng)域的性能和安全性。
這是什么意思呢:
首先,OpenAI提出了一套用于評(píng)估醫(yī)療AI安全有效的標(biāo)準(zhǔn)體系;
其次,他們的模型在這套體系中毫無疑問拿下了最高分;
說實(shí)話,這種事情是有點(diǎn)扯的,因?yàn)槊恳粋€(gè)提出評(píng)估模型的團(tuán)隊(duì),特別是基座模型團(tuán)隊(duì),完全可以基于問題做特別訓(xùn)練,俗稱刷榜,這里的意思是:后面發(fā)出的模型一定比前面的強(qiáng),但是不是真的強(qiáng)就不知道了…
但無論如何,只要能建立一套真的好用的AI醫(yī)生評(píng)價(jià)體系,這件事是功德無量的,至于其他公司用不用,再說
但看現(xiàn)有AI醫(yī)療的評(píng)估體系,其實(shí)是很業(yè)余的,因?yàn)樗麄兏嗍窃跍y(cè)試考試(做題),這里有三個(gè)問題:
- 未能還原真實(shí)醫(yī)療場(chǎng)景,真實(shí)場(chǎng)景是不存在做題的,是復(fù)雜的多輪問詢;
- 缺乏基于專家意見的嚴(yán)格驗(yàn)證,就算是真實(shí)的醫(yī)患對(duì)話,其實(shí)也不知道到底對(duì)不對(duì),因?yàn)闆]人真的去評(píng)價(jià);
- 難以為前沿模型提供提升空間,以之前刷題的測(cè)試來說,分刷的高其實(shí)也無所謂,因?yàn)椴⒉唤鉀Q實(shí)際問題;
于是,OpenAI在這個(gè)基礎(chǔ)下提出了HealthBench:
- 有現(xiàn)實(shí)意義(Meaningful):評(píng)分應(yīng)反映真實(shí)世界影響。突破傳統(tǒng)考試題的局限,精準(zhǔn)捕捉患者與臨床工作者使用模型時(shí)的復(fù)雜現(xiàn)實(shí)場(chǎng)景和工作流程。
- 值得信賴(Trustworthy):評(píng)分須真實(shí)體現(xiàn)醫(yī)師判斷。評(píng)估標(biāo)準(zhǔn)必須符合醫(yī)療專業(yè)人員的核心訴求與行業(yè)規(guī)范,為AI系統(tǒng)優(yōu)化提供嚴(yán)謹(jǐn)依據(jù)。
- 未飽和(Unsaturated):基準(zhǔn)測(cè)試應(yīng)推動(dòng)進(jìn)步?,F(xiàn)有模型必須展現(xiàn)顯著改進(jìn)空間,持續(xù)激勵(lì)開發(fā)者提升系統(tǒng)性能。
OpenAI的模型在這里是否遠(yuǎn)超人類我們不去多說,先看看他這個(gè)測(cè)試方法是什么?
測(cè)試方法與數(shù)據(jù)(重要)
一個(gè) HealthBench 示例包含一段對(duì)話,以及醫(yī)生針對(duì)該對(duì)話編寫的評(píng)分細(xì)則?;谀P偷脑u(píng)分器會(huì)按照每條細(xì)則為模型回復(fù)打分:
也就是說,每條模型回復(fù)都會(huì)依據(jù)針對(duì)該對(duì)話量身定制的評(píng)分量表進(jìn)行打分。
具體而言,每個(gè)評(píng)測(cè)樣例包含:
- 對(duì)話:由模型與用戶的若干消息組成,并以一條用戶消息收尾;
- 評(píng)分細(xì)則:說明在該對(duì)話情境下,回復(fù)應(yīng)當(dāng)被獎(jiǎng)勵(lì)或懲罰的行為屬性;
評(píng)分細(xì)則的內(nèi)容既可以是必須提及的具體事實(shí)(例如應(yīng)服用何種藥物及劑量),也可以是期望的行為要素(例如詢問用戶更多膝蓋疼痛細(xì)節(jié),以便獲得更精準(zhǔn)的診斷)。
每條細(xì)則都對(duì)應(yīng)一個(gè)非零分值,范圍為 ?10 至 10,其中負(fù)分代表不期望出現(xiàn)的行為。
具體評(píng)分流程為:
- 模型評(píng)分器逐條獨(dú)立判斷回復(fù)是否滿足相應(yīng)細(xì)則。
- 若滿足,則給予該細(xì)則的滿分;否則不給分。
- 對(duì)負(fù)向細(xì)則亦同:若觸犯,則按定義扣除相應(yīng)負(fù)分。
- 將所有已滿足細(xì)則的分值(正分與扣分)相加,得到該樣例的總分。
- 再將該總分除以該樣例的最高可能得分,得到該樣例的最終得分。
而HealthBench 包含 5000 個(gè)評(píng)測(cè)樣例,每個(gè)樣例由一段對(duì)話和一組評(píng)分標(biāo)準(zhǔn)(rubric criteria)組成。
對(duì)話可能是單輪(僅有用戶消息)或多輪(用戶與模型交替,最后以用戶消息結(jié)束)。
平均來看,每段對(duì)話有 2.6 輪,總長(zhǎng)度 約 668 個(gè)字符(含用戶與模型消息),整體范圍從 1 到 19 輪、從 4 到 9,853 個(gè)字符。
一個(gè)典型樣例包含 11 條由醫(yī)生專為該樣例撰寫的評(píng)分標(biāo)準(zhǔn);最少有 2 條,最多可達(dá) 48 條
PS:其實(shí)僅僅從這個(gè)角度來說,測(cè)試基數(shù)是有點(diǎn)小的,然后根據(jù)我之前真實(shí)經(jīng)驗(yàn),醫(yī)患對(duì)話其實(shí)在10輪以上是更多的
具體再來看看其測(cè)試數(shù)據(jù)來源:
- 合成對(duì)話(主要),與醫(yī)師合作,首先列舉在評(píng)測(cè)中應(yīng)覆蓋的重要場(chǎng)景;
- 醫(yī)師紅隊(duì)數(shù)據(jù)(次要),來自醫(yī)師對(duì)大模型在醫(yī)療場(chǎng)景中的“紅隊(duì)攻擊”測(cè)試 (Pfohl 等, 2024),聚焦模型薄弱或回答不當(dāng)?shù)奶釂枺?/li>
- HealthSearchQA 改寫,HealthSearchQA 是 Google 發(fā)布的高頻健康搜索問答數(shù)據(jù)集 (Singhal 等, 2023);
從這個(gè)角度來說,這些數(shù)據(jù)其實(shí)全部是虛構(gòu)的…
虛構(gòu)的原因可能是真實(shí)場(chǎng)景患者“廢話太多”,或者醫(yī)生根本沒有想過語料,這個(gè)事情其實(shí)我之前也做過,只不過我們是根據(jù)臨床指南或者病例合成對(duì)話,從這個(gè)角度來說,這個(gè)實(shí)驗(yàn)其實(shí)不太嚴(yán)謹(jǐn)。
評(píng)分維度 ??
HealthBench 示例被劃分為七個(gè)主題(themes),每個(gè)主題對(duì)應(yīng)真實(shí)世界健康交互中的一個(gè)關(guān)鍵任務(wù)場(chǎng)景。
每個(gè)主題下面包含大量示例,且每個(gè)示例都有一套獨(dú)立的評(píng)分量表(rubric)。
在每份量表中,每條評(píng)分標(biāo)準(zhǔn)都會(huì)標(biāo)注其所屬“評(píng)價(jià)軸”(axis),用來說明該標(biāo)準(zhǔn)衡量的是模型行為的哪個(gè)方面。
通過同時(shí)按“主題”與“評(píng)價(jià)軸”匯報(bào)結(jié)果,HealthBench 可以對(duì)模型性能進(jìn)行更細(xì)粒度的拆解與分析。
一、主題
下表給出了七大主題在 5 000 個(gè)示例中的分布情況:
以下簡(jiǎn)要說明各主題評(píng)測(cè)的核心能力:
- 緊急就醫(yī)建議:考察模型能否識(shí)別醫(yī)療急癥并及時(shí)引導(dǎo)用戶就醫(yī)。誤判(錯(cuò)過升級(jí)或過度升級(jí))都可能造成傷害或加重醫(yī)療系統(tǒng)負(fù)擔(dān)。
- 主動(dòng)補(bǔ)充關(guān)鍵信息:現(xiàn)實(shí)中用戶往往無法一次性提供完整病情。該主題評(píng)估模型能否識(shí)別信息缺口并主動(dòng)詢問關(guān)鍵背景。
- 全球健康:衡量模型在醫(yī)療資源匱乏或地區(qū)差異明顯的環(huán)境下,能否因地制宜給出可行建議。
- 健康數(shù)據(jù)任務(wù):聚焦結(jié)構(gòu)化醫(yī)療文檔撰寫、決策支持、科研匯總等場(chǎng)景,要求高準(zhǔn)確度,因?yàn)殄e(cuò)誤會(huì)在后續(xù)護(hù)理鏈條中被放大。
- 受眾專業(yè)度匹配溝通:評(píng)估模型能否區(qū)分用戶角色(醫(yī)務(wù)人員 vs. 普通大眾)并用合適的術(shù)語深度表達(dá)。
- 不確定情境下的應(yīng)答:醫(yī)學(xué)常伴隨不確定性。該主題檢查模型能否識(shí)別證據(jù)不足場(chǎng)景并以相稱的語氣表達(dá)不確定。
- 答復(fù)深度控制:不同情境需要不同詳略。過簡(jiǎn)可能遺漏關(guān)鍵信息,過繁又可能淹沒重點(diǎn)。此主題評(píng)估模型調(diào)整答復(fù)深度的能力。
二、評(píng)價(jià)軸(Axes)
每條評(píng)分標(biāo)準(zhǔn)都會(huì)標(biāo)注一個(gè)“評(píng)價(jià)軸”,用來描述它衡量的行為維度。所有標(biāo)準(zhǔn)共分為五個(gè)核心軸,如下表所示:
- 準(zhǔn)確性:檢查回答是否僅包含與最新醫(yī)學(xué)共識(shí)一致的正確信息,并在證據(jù)薄弱處體現(xiàn)出不確定。
- 完整性:即使回答正確,若遺漏關(guān)鍵步驟或風(fēng)險(xiǎn)癥狀,仍可能導(dǎo)致風(fēng)險(xiǎn)。該軸關(guān)注信息是否充分、全面。
- 溝通質(zhì)量:評(píng)價(jià)回答是否條理清晰、語言精煉,技術(shù)深度與詞匯是否與用戶匹配。
- 情境感知:衡量模型能否利用已給出的情境線索(如用戶角色、地理資源等)并在必要時(shí)主動(dòng)追問。
- 指令遵循:當(dāng)用戶要求特定格式或轉(zhuǎn)換結(jié)構(gòu)化文檔時(shí),模型是否在保證安全的前提下嚴(yán)格按要求輸出。
通過在七大主題與五條評(píng)價(jià)軸的雙重坐標(biāo)系下統(tǒng)計(jì)得分,HealthBench 能夠呈現(xiàn)醫(yī)療大模型的性能長(zhǎng)板與短板,為后續(xù)安全改進(jìn)與能力提升提供有針對(duì)性的方向。
其后,OpenAI做了很多動(dòng)作,比如讓專業(yè)醫(yī)生給出最合理的作答,一判斷模型的答案與真人答案的一致性。
最后給兩個(gè)案例:
案例
下列 案例 A 與 案例 B 均展示了 4–5 輪問答,便于演示 :
- 醫(yī)生如何?主動(dòng)補(bǔ)充關(guān)鍵信息;
- 何時(shí)?及時(shí)升級(jí)緊急就醫(yī);
案例 A · 緊急就醫(yī)建議
主題歸屬:1 緊急就醫(yī)建議 + 2 主動(dòng)補(bǔ)充關(guān)鍵信息
場(chǎng)景:48 歲男性突發(fā)胸痛,醫(yī)生需迅速排除急性冠脈綜合征
案例 B · 主動(dòng)補(bǔ)充關(guān)鍵信息
主題歸屬:2 主動(dòng)補(bǔ)充關(guān)鍵信息 + 7 答復(fù)深度控制
場(chǎng)景:膝蓋上樓“咔噠”聲,無痛感,醫(yī)生需確認(rèn)背景并給出分層建議
結(jié)語
從“安全是最大的奢侈”到 HealthBench 的七大主題、五條評(píng)價(jià)軸,我們看到:只有把安全內(nèi)嵌進(jìn)數(shù)據(jù)源篩選、模型架構(gòu)、評(píng)測(cè)體系和臨床流程,醫(yī)療 AI 才能真正邁出實(shí)驗(yàn)室,服務(wù)真實(shí)病患。
無論是 OpenEvidence 以純血級(jí)文獻(xiàn)打造可溯源 Copilot,還是 HealthBench 用多輪對(duì)話和醫(yī)生 rubric 還原臨床復(fù)雜度,背后指向的都是同一句話——在生命健康面前,準(zhǔn)確、透明、可追責(zé)的 AI 不是加分項(xiàng),而是入場(chǎng)券。
下一階段,唯有產(chǎn)業(yè)各方攜手:算法團(tuán)隊(duì)持續(xù)降低幻覺率,醫(yī)療機(jī)構(gòu)參與真實(shí)場(chǎng)景驗(yàn)證,監(jiān)管部門完善合規(guī)沙盒,創(chuàng)業(yè)者深耕垂直需求,才能讓“安全”從奢侈品變成標(biāo)配,讓技術(shù)的光照進(jìn)每一間診室。
只不過這里OpenAI的HealthBench感覺依舊不能完全還原真實(shí)場(chǎng)景,還是沒跳出AI評(píng)測(cè)答題的邏輯,作弊成本很低…
本文由人人都是產(chǎn)品經(jīng)理作者【葉小釵】,微信公眾號(hào):【葉小釵】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!