Agent沒人用?是你沒做對(duì)這6件事(含0-1醫(yī)療Agent真實(shí)復(fù)盤)
在AI技術(shù)蓬勃發(fā)展的當(dāng)下,醫(yī)療Agent作為一款嵌入醫(yī)院主頁(yè)的智能模塊,本應(yīng)為患者提供高效便捷的咨詢和問診服務(wù),但許多產(chǎn)品卻面臨用戶使用率低下的困境。本文作者通過親身參與一款醫(yī)療Agent產(chǎn)品的研發(fā)與落地,從0到1復(fù)盤了其在全國(guó)近1000家醫(yī)院上線的全過程。
最近參與的Agent產(chǎn)品已在全國(guó)近1000家醫(yī)院上線啦~(撒花)
在調(diào)研、試點(diǎn)、落地的過程中,我們踩了很多坑,也積累了不少經(jīng)驗(yàn)。寫下這些,希望能給正在做AI落地的朋友們一些參考。
備注:該Agent是嵌入在各醫(yī)院主頁(yè)中的模塊,患者對(duì)該醫(yī)院有任何問題,例如“有沒有急診?能租賃輪椅嗎?小孩肚子痛掛什么科”等都可以進(jìn)行詢問,并直接在線問診或掛號(hào)。
1.作為AI產(chǎn)品經(jīng)理,找到真實(shí)的用戶需求比技術(shù)理解力更重要
一開始我們沒想著做AI Agent,只是后臺(tái)頻繁出現(xiàn)的問題引起了注意:
“懷孕四個(gè)月甲亢怎么辦?”
“抽血在哪一樓?”
“有無(wú)痛胃鏡嗎?”
這些問題看起來很簡(jiǎn)單,但幾乎沒人答得上來。不是醫(yī)生不專業(yè),而是這些信息太零散,太長(zhǎng)尾。很多答案藏在醫(yī)院的HIS系統(tǒng)、公眾號(hào)、甚至紙質(zhì)易拉寶上,用戶不是不愿查,是根本不知道去哪查。
因此我們思考:如果連醫(yī)院工作人員都答不清,那有沒有可能,AI能成為那個(gè)“統(tǒng)一回答者”?我們手上其實(shí)有不少底牌:醫(yī)療知識(shí)圖譜、醫(yī)生問答數(shù)據(jù)、醫(yī)院服務(wù)信息和號(hào)源……粗略評(píng)估,覆蓋大多數(shù)場(chǎng)景沒問題。
但我們也沒上來就動(dòng)手,而是先看了下市場(chǎng)上有沒有人做過:平臺(tái)型產(chǎn)品(康康、安診兒)偏健康咨詢,服務(wù)信息回答不了;垂類產(chǎn)品(訊飛曉醫(yī))重問診,醫(yī)院運(yùn)營(yíng)類問題幾乎空白。
結(jié)論很明確:用戶有需求,市場(chǎng)沒人做,我們就決定試一試。
2.MVP思路驗(yàn)證需求,不用一開始就All in模型架構(gòu)
我們并沒有一上來就開干,而是利用MVP產(chǎn)品思維,用最小投入,在最短時(shí)間,驗(yàn)證最核心的用戶價(jià)值后,才立項(xiàng)。
當(dāng)時(shí),秘塔AI搜索已有知識(shí)庫(kù)上傳能力,因此我將幾份醫(yī)院相關(guān)信息上傳到秘塔知識(shí)庫(kù),讓秘塔基于知識(shí)庫(kù)回答,完成初步MVP方案。
整個(gè)知識(shí)庫(kù)搭建你們猜猜用了多久?
10分鐘。
能在這么短時(shí)間內(nèi)搭建一個(gè)MVP產(chǎn)品在以前是不敢想的,但現(xiàn)在有了各種AI產(chǎn)品的加持,不懂代碼的我也可以分分鐘搭建一個(gè)可用的產(chǎn)品。
搭建好后,我把這個(gè)醫(yī)院AI萬(wàn)事通發(fā)給同事、用戶體驗(yàn),雖然略粗糙,甚至都沒有Prompt來優(yōu)化回答,他們依然覺得在獲取醫(yī)院信息上,提效了不少,因?yàn)檫@些信息原本需要他們自己去找公眾號(hào)、小紅書、找熟人問,甚至給醫(yī)院打電話咨詢的。
除了信息獲取的效率更高了,有些用戶甚至還想直接在MVP方案里找到合適的醫(yī)生在線問診、買藥品,或者掛號(hào)。你說巧不巧,我們正好也有在線問診醫(yī)生、藥品和號(hào)源,可以完美承接用戶訴求。
驗(yàn)證了用戶需求真實(shí)后,我們就開干了。
3.產(chǎn)品、運(yùn)營(yíng)、研發(fā)沒有邊界,誰(shuí)會(huì)誰(shuí)上
其實(shí)我們團(tuán)隊(duì)之前沒有專門為AI項(xiàng)目立過項(xiàng),大多是某個(gè)子功能需要大模型能力,適當(dāng)引入大模型。而這次完全是基于大模型的產(chǎn)品,因此產(chǎn)品、運(yùn)營(yíng)、研發(fā)、測(cè)試團(tuán)隊(duì)也在項(xiàng)目中探索各自的工作邊界和如何協(xié)同。
現(xiàn)在回看過來,大家除了完成自己的本職工作,多多少少都會(huì)“插手”其他職能的工作。例如:
- MVP方案是產(chǎn)品獨(dú)立搭建的,完全無(wú)需研發(fā)參與;
- 運(yùn)營(yíng)會(huì)參與到寫Prompt的工作中來,和產(chǎn)品、研發(fā)一起迭代workflow;
- 研發(fā)會(huì)參與到用戶調(diào)研中,進(jìn)行用戶訪談和洞察提煉;
- 產(chǎn)品會(huì)直接寫知識(shí)庫(kù)結(jié)構(gòu),和研發(fā)一起完成知識(shí)庫(kù)設(shè)計(jì)。
除了這些,大家也使出渾身解數(shù)來讓這個(gè)產(chǎn)品更完美,運(yùn)營(yíng)甚至?xí)芙紖^(qū)的醫(yī)院,親手拍下醫(yī)院的公示牌,以驗(yàn)證大模型回復(fù)問題的準(zhǔn)確性。雖然很辛苦,但大家都覺得值得。
4.不需要最好的模型,而是對(duì)的流程+對(duì)的模型
很多人以為做Agent就一定要用“最強(qiáng)的大模型”,比如GPT-4o,參數(shù)多、推理強(qiáng)、理解深。但在真實(shí)的工程實(shí)踐中,我們并不需要最強(qiáng)的模型,而是最合適的位置上,用最合適的模型。
舉個(gè)例子,在我們的Agent產(chǎn)品中,一個(gè)用戶的提問,背后可能會(huì)依次觸發(fā)這些模型:
【1】意圖識(shí)別模型 → 判斷患者意圖。
這個(gè)模型的職責(zé)很明確:快速、穩(wěn)定、低成本地判斷患者是在問:癥狀掛什么科?樓層位置在哪?醫(yī)院是否有停車場(chǎng)?此時(shí),我們會(huì)選擇響應(yīng)快、成本低的模型,不需要多強(qiáng)的“思考力”,但必須穩(wěn)、準(zhǔn)、快的把意圖分發(fā)到對(duì)應(yīng)的工作流中。
【2】信息檢索模型 → 找到醫(yī)院信息、醫(yī)生、號(hào)源。
這一部分對(duì)“準(zhǔn)確性”要求極高,查錯(cuò)樓層、醫(yī)生信息會(huì)直接誤導(dǎo)用戶。所以我們更依賴結(jié)構(gòu)化數(shù)據(jù)庫(kù) + 檢索能力,而不是純靠生成模型自由發(fā)揮,能答對(duì)、答全、答準(zhǔn)最重要。
【3】內(nèi)容生成模型 → 給出清晰易懂的回答。
當(dāng)檢索到的信息結(jié)構(gòu)化地返回后,我們需要一個(gè)模型來“潤(rùn)色”回答,讓內(nèi)容更口語(yǔ)化、親和力強(qiáng),符合醫(yī)療場(chǎng)景的語(yǔ)氣。這里我們用了中等能力的大模型(不是參數(shù)最多的那種),但做了精細(xì)的Prompt設(shè)計(jì),以保證回復(fù)內(nèi)容“準(zhǔn)確、簡(jiǎn)潔、友好”。
【4】安全審查模型 → 確保內(nèi)容不出風(fēng)險(xiǎn)。
醫(yī)療是高度敏感的場(chǎng)景,模型不能亂推薦、不能瞎猜、不能打擦邊球,因此還需要做內(nèi)容過濾 + 安全規(guī)則審查。這部分模型必須加多重兜底機(jī)制,比如關(guān)鍵詞過濾、白名單、灰度控制等。
所以,我們的Agent產(chǎn)品不是“塞一個(gè)大模型進(jìn)去讓它全盤接管”,而是我們作為指揮官,讓對(duì)的模型,在對(duì)的節(jié)點(diǎn),做對(duì)的事。
5.數(shù)據(jù)集和測(cè)評(píng)體系是落地Agent的生命線
在我們最初上線時(shí),其實(shí)并沒有投入太多時(shí)間在“測(cè)評(píng)體系”上。我們以為只要大模型能答對(duì)幾個(gè)典型問題,效果就差不到哪兒去。
但事實(shí)是:我們踩坑了。
我們遇到過很多“看起來答了,其實(shí)沒答對(duì)”的問題,細(xì)看背后,其實(shí)都是缺乏測(cè)評(píng)集覆蓋導(dǎo)致的,例如:
用戶問:“我胸悶3天了現(xiàn)在一直咳嗽怎么辦?”
模型答:“建議撥打醫(yī)院電話咨詢”。
分析:這屬于意圖理解正確,但模型選擇了保守拒答且回答冰冷,說明缺少SFT微調(diào)+人文關(guān)懷+兜底機(jī)制。
用戶問:“我嗓子痛,順便能打HPV疫苗嗎?”
模型答:“建議您掛耳鼻喉科?!?/p>
分析:這屬于用戶有多個(gè)意圖,但只回答了一個(gè),說明模型缺乏多意圖識(shí)別能力或缺少“主次信息判斷”的機(jī)制。
后來我們意識(shí)到,必須建立系統(tǒng)性的測(cè)評(píng)方式:
【1】構(gòu)建測(cè)評(píng)集。覆蓋所有核心意圖類型(癥狀問科室、問服務(wù)、問科普等)。
【2】拆分維度測(cè)評(píng)。每種意圖下的問法要覆蓋“規(guī)范問法”、“模糊問法”、“口語(yǔ)問法”、“單輪詢問”、“多輪詢問”等,甚至區(qū)分患者是老年、中年,還是兒童。
【3】精細(xì)標(biāo)注預(yù)期輸出。區(qū)分“正確 / 不完整 / 錯(cuò)位 / 胡編 / 拒答”等級(jí)。
【4】對(duì)錯(cuò)誤做歸因。到底是識(shí)別問題?檢索不到?提示詞沒寫好?語(yǔ)料覆蓋不足?
有了這些系統(tǒng)測(cè)評(píng),我們才能讓模型從“能答”走向了“答得對(duì)、答得穩(wěn)”。
6.醫(yī)療場(chǎng)景一定要SFT,否則風(fēng)險(xiǎn)不可控
在通用大模型性能強(qiáng)大的今天,我們一開始也有幻想:“模型已經(jīng)很強(qiáng)了,說不定不用調(diào)教也能答得不錯(cuò)?”但當(dāng)我們真正把 Agent 放進(jìn)醫(yī)療場(chǎng)景里,才意識(shí)到:醫(yī)療,不是“說得像”,而是“必須對(duì)”。
不做 SFT(Supervised Fine-Tuning,監(jiān)督微調(diào))會(huì)遇到什么問題?
- 模型會(huì)推薦醫(yī)院根本沒有的科室,因?yàn)樗鼜幕ヂ?lián)網(wǎng)上“想當(dāng)然地胡編”;
- 患者說“我孕早期肚子痛”,它說“掛消化內(nèi)科”,忽略了風(fēng)險(xiǎn)詞“孕”;
- 模型偶爾輸出“我建議您做××手術(shù)”,這是醫(yī)療禁區(qū),普通模型完全沒邊界感。
這類問題極具隱蔽性,在 Demo 階段也許看不出來,一旦上線就可能出醫(yī)療事故式輿情。所以我們后來做了什么?
- 自建了醫(yī)療問答數(shù)據(jù)集,人工標(biāo)注 + 精調(diào);
- 建立高風(fēng)險(xiǎn)關(guān)鍵詞庫(kù),聯(lián)合內(nèi)容安全模型做多層過濾;
- 所有生成都限定在“回答服務(wù)信息 + 推薦問診掛號(hào)”這類低風(fēng)險(xiǎn)任務(wù)內(nèi);
- 做多輪灰度測(cè)試,確保模型“寧愿不答,也不硬答”。
這次Agent項(xiàng)目,我最大的體會(huì)有兩點(diǎn):
第一,哪怕是做 AI 的產(chǎn)品經(jīng)理,最重要的依然是,找到真實(shí)的用戶需求。
不是卷模型參數(shù)、不是堆復(fù)雜框架,而是踏踏實(shí)實(shí)地觀察用戶、理解問題、驗(yàn)證需求。
第二,我徹底放下了對(duì)“大模型”的盲目崇拜。
AI不是魔法棒,它只是一個(gè)強(qiáng)大的工具。真正讓產(chǎn)品落地的,從來都是:
- 真實(shí)的用戶調(diào)研
- 系統(tǒng)的數(shù)據(jù)測(cè)評(píng)
- 一次次“答錯(cuò)了為什么”的復(fù)盤
本文由 @AI產(chǎn)品泡騰片 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!