AI醫(yī)療問診產(chǎn)品分析:從評(píng)估體系到模型能力的全面解析
隨著AI技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用逐漸深入,AI醫(yī)療問診產(chǎn)品成為行業(yè)關(guān)注的焦點(diǎn)。本文將深入分析AI醫(yī)療問診產(chǎn)品的核心能力,從評(píng)估體系到模型性能,探討如何通過多輪對(duì)話動(dòng)態(tài)收集病情信息并完成診斷閉環(huán)。
AI產(chǎn)品經(jīng)理與非AI產(chǎn)品經(jīng)理有哪些不同?
- 做好「評(píng)估」這件事:AI產(chǎn)品的質(zhì)量在很大程度上取決于其評(píng)估的質(zhì)量。當(dāng)前模型往往是“評(píng)估受限”而不是“智能受限”。制定合適的評(píng)估方法是產(chǎn)品經(jīng)理的一項(xiàng)關(guān)鍵技能,需要能夠定義什么是好的并創(chuàng)建有效的評(píng)估,并根據(jù)數(shù)據(jù)分析不斷改進(jìn)評(píng)估。例如,在醫(yī)療問診場(chǎng)景中,評(píng)估不僅是技術(shù)驗(yàn)證,更是醫(yī)療專業(yè)性與用戶體驗(yàn)的雙重校準(zhǔn)。
- 能處理隨機(jī)、非確定性的系統(tǒng)問題:AI 模型(如大語言模型)的輸出具有隨機(jī)性,產(chǎn)品經(jīng)理需設(shè)計(jì)閉環(huán)反饋機(jī)制(如異常檢測(cè)、數(shù)據(jù)回流);判斷模型何時(shí)偏離軌道并設(shè)置哪些防護(hù)措施等,并判斷模型何時(shí)需要人工介入。
- 更深入的技術(shù)理解:?雖然不需要精通技術(shù),但對(duì)底層技術(shù)和模型能力的更好理解對(duì)于有效的產(chǎn)品管理和設(shè)計(jì)至關(guān)重要。這決定了產(chǎn)品經(jīng)理能否判斷需求能不能做、能做到什么程度、難點(diǎn)在哪、哪些需要產(chǎn)品能力補(bǔ)齊全、需要什么樣的數(shù)據(jù)及數(shù)據(jù)量、產(chǎn)品與技術(shù)的互補(bǔ)路徑(如用交互設(shè)計(jì)彌補(bǔ)模型推理漏洞)等等。
當(dāng)然,真正要做好評(píng)估,更深一層的關(guān)鍵是業(yè)務(wù)和領(lǐng)域的know-how。
接下來,我以本人最近在做的AI問診為例,簡(jiǎn)單記錄一下我在其中對(duì)于評(píng)估標(biāo)準(zhǔn)的制定,以及一些具體模型的測(cè)評(píng)。(在閱讀本實(shí)踐篇之前,可以先去看看我的AI醫(yī)療產(chǎn)品拆解篇哦~)
醫(yī)療問診場(chǎng)景的測(cè)評(píng)框架與實(shí)踐
1. 場(chǎng)景定義與評(píng)估目標(biāo)
AI 問診模型需通過多輪對(duì)話動(dòng)態(tài)收集病情信息,完成 “癥狀詢問→病因分析→診斷建議” 的閉環(huán)。核心能力包括:
AI問診模型需要通過與患者進(jìn)行多輪對(duì)話,逐步收集能夠得出患者的疾病診斷的充足信息,并給出最終的疾病診斷。因此需要具備多輪對(duì)話、能有效詢問、能追問、能回答用戶問題、能根據(jù)用戶的描述判斷疾病并改變對(duì)話方向的能力。
我主要從單輪及多輪兩個(gè)角度評(píng)估模型的性能,以檢查其在單輪對(duì)話中問出最具指向性問題的能力和在多輪對(duì)話中收集到完整有效病情信息的能力。
1)單輪評(píng)估指標(biāo):
醫(yī)生的問診決策邏輯是:根據(jù)癥狀描述,首先確定大致的疾病范圍,并按照最有可能的疾病進(jìn)行癥狀詢問?;卺t(yī)生的認(rèn)知流,制定出單輪對(duì)話的評(píng)估指標(biāo):
- 相關(guān)性:詢問的內(nèi)容是否與特定的疾病相關(guān)
- 有用性:詢問的內(nèi)容是否有利于得出最終診斷
- 語言質(zhì)量:對(duì)話邏輯清晰,表達(dá)流暢自然,能承上啟下。
- 同理心:與患者互動(dòng)時(shí)表現(xiàn)對(duì)情緒的照顧和高度的同理心。
2)整體評(píng)估指標(biāo)
為了對(duì)對(duì)話能力進(jìn)行系統(tǒng)評(píng)估,提出了五個(gè)指標(biāo),即主動(dòng)性、準(zhǔn)確性、幫助性和語言質(zhì)量和同理心。
- 主動(dòng)性:當(dāng)信息不足時(shí),醫(yī)生能夠主動(dòng)、清晰地要求患者提供更多關(guān)于癥狀、體檢結(jié)果和病史的信息,主動(dòng)引導(dǎo)患者完成咨詢過程。然而,如果對(duì)話中患者的詢問明確、直接且與個(gè)人健康狀況無關(guān),主動(dòng)性評(píng)估的相關(guān)性較低,則應(yīng)給予滿分 5 分。
- 準(zhǔn)確性:醫(yī)生提供的診斷或建議準(zhǔn)確無誤,沒有事實(shí)錯(cuò)誤,不隨意下結(jié)論。
- 幫助性:醫(yī)生能夠?yàn)榛颊咛峁┣逦?、有指?dǎo)意義和實(shí)用的幫助,具體解決患者的擔(dān)憂。
- 語言質(zhì)量:對(duì)話邏輯清晰,醫(yī)生正確理解患者的語義,表達(dá)流暢自然。
- 同理心:與患者互動(dòng)時(shí)表現(xiàn)出全面的解釋和高度的同理心。
2. 常見大模型在問診任務(wù)下的測(cè)評(píng)
總結(jié)
通用大模型在面對(duì)醫(yī)療咨詢時(shí)往往會(huì)在一個(gè)單輪中提供詳細(xì)的模板式回應(yīng),而做不到對(duì)患者病情的有效詢問和澄清。少部分會(huì)在診斷后進(jìn)一步詢問其他信息,只有kimi(有聯(lián)網(wǎng)+無長(zhǎng)思考)不急于給出結(jié)論,而是先詢問詳細(xì)情況。而我認(rèn)為這種先收集詳細(xì)且具體的信息后再給出診斷結(jié)果的醫(yī)療問診模式是更合理且更滿足問診場(chǎng)景實(shí)際需求的模式。例如,在在線兒科疾病咨詢中,醫(yī)生和患者之間的平均互動(dòng)約為 40 輪,其中一半的輪次用于討論患者的癥狀細(xì)節(jié)。
在此次測(cè)評(píng)中,大多數(shù)通用大模型在每輪對(duì)話中都會(huì)給出所有可能發(fā)生的疾病,召回率高精準(zhǔn)率低,用戶還是無法拿到有效的診斷結(jié)果,不符合醫(yī)療問診的邏輯。而此次測(cè)評(píng)中的醫(yī)療大模型以及kimi(有聯(lián)網(wǎng)+無長(zhǎng)思考)能夠在獲取完信息后,給出一個(gè)具體的、有針對(duì)性的診斷結(jié)果,意料之外且非常符合問診場(chǎng)景。
在語言風(fēng)格和醫(yī)患交流體驗(yàn)上,kimi(有聯(lián)網(wǎng)+有長(zhǎng)思考)在Think的過程中意識(shí)到”我的第一反應(yīng)是,這并不像是非常嚴(yán)重的健康問題,但用戶可能還是有些擔(dān)心,所以,我需要提供一些實(shí)用的幫助,同時(shí)讓語氣保持溫和、有共情,不至于讓對(duì)方感到緊張。我還要注意語氣的處理。用戶提到的是一個(gè)日常小問題,所以語氣要輕松、自然,同時(shí)體現(xiàn)出對(duì)他的關(guān)注。不能讓他覺得這只是機(jī)械的回復(fù),而是有一種“我在聽你說話”的感覺。因此,我會(huì)選擇一些貼近生活、容易理解的表達(dá)方式,比如用“鼻塞和咳嗽”這樣的詞,而不是過于專業(yè)的術(shù)語”。做到了有溫度能共情,注重用戶情緒和體驗(yàn)。
本文由 @「愛」原生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!