專家智能體火熱,醫(yī)生AI分身的“幻覺”如何解決?
就醫(yī)前先問AI醫(yī)療,通過免費在線問診,已成為越來越多的人在拿到體檢報告后或出現(xiàn)身體不適時的第一選擇。因此,“專家智能體”正成為新一輪醫(yī)療AI大模型競賽的焦點。
多名受訪業(yè)界人士認為,“專家智能體”有望推動優(yōu)質(zhì)醫(yī)療資源更普惠、可及,但無論是在互聯(lián)網(wǎng)醫(yī)療還是醫(yī)院場景下,專家的數(shù)字分身均不能取代專家做出診斷決策。
目前,在醫(yī)生智能體這個賽道上,各個醫(yī)療大模型研發(fā)團隊都在比誰的考試分數(shù)更高、哪個智能體回復得更快,但卻忽略了嚴肅醫(yī)療場景首先需要確保診斷的安全性,然后是有效性。”醫(yī)聯(lián)/未來醫(yī)生創(chuàng)始人、CEO王仕銳在接受第一財經(jīng)采訪時說。
醫(yī)療大模型應用引發(fā)臨床安全與倫理爭議,其中決策錯誤的責任歸屬問題在“專家智能體”的研發(fā)和應用中尤為凸顯。專家們的顧慮仍待進一步回應:面對大模型決策過程的“黑箱”,智能體會不會頂著他們的名義“一本正經(jīng)地胡說八道”?
“專家智能體”賽道火熱
所謂“專家智能體”,即以AI大模型等技術(shù)為底座,結(jié)構(gòu)化專家團隊的診療經(jīng)驗,復刻其專業(yè)語料、診療習慣以及臨床決策框架和依據(jù),形成專家的數(shù)字分身。在業(yè)界人士看來,我國優(yōu)質(zhì)醫(yī)療資源供給和知名醫(yī)學專家服務(wù)能力有限,“專家智能體”可以協(xié)助醫(yī)生拓展診療邊界。
病人病情千變?nèi)f化,并不能完整照搬教科書和指南,在這種隱性的診療思路和經(jīng)驗沉淀上,專家和普通醫(yī)生就拉開了差距,這就有了專家AI智能分身的用戶需求。近一年多以來,大模型推理能力的提升和訓練模式的迭代,讓醫(yī)療垂直大模型得以‘理解’醫(yī)學思維和醫(yī)療決策邏輯,實現(xiàn)可信的輔助決策,這使得定制化的智能體模擬醫(yī)生的臨床推理鏈路在技術(shù)上更具可操作性。”一名受訪醫(yī)療大模型研發(fā)人士表示。
一份由信通院等機構(gòu)最新發(fā)布的研報數(shù)據(jù)顯示,2025年我國醫(yī)療大模型市場規(guī)模接近20億元,在行業(yè)爆發(fā)期間,預計以高達140%的年平均增長率,于2028年突破百億元。僅今年前四月,國內(nèi)新發(fā)布醫(yī)療大模型已過百,遠超2024年全年的94個、2023年全年的61個。
盡管目前該行業(yè)頭部企業(yè)均已陸續(xù)相繼推出了AI醫(yī)生產(chǎn)品,但隨著通用型AI大模型應用推廣,僅僅作為健康管理助手的“AI醫(yī)生”吸引力有所下降,入局者們開始思考能否推出可以真正“一比一還原專家診療”的專家數(shù)字分身。根據(jù)前述研報,“專家AI智能體”已成為基于大模型技術(shù)的主要應用場景之一。
在國內(nèi),更先動起研發(fā)念頭的往往是一些已經(jīng)拿到互聯(lián)網(wǎng)醫(yī)院牌照的企業(yè)和“大三甲”醫(yī)院。根據(jù)中商產(chǎn)業(yè)研究院預測,2025年我國互聯(lián)網(wǎng)醫(yī)療行業(yè)市場規(guī)模將增至4799億元。
一篇由斯坦福、麻省理工大學等研究人員日前發(fā)表在《新英格蘭醫(yī)學雜志》(NEJM)人工智能子刊上的研究文章,評估了逾百名非專業(yè)人士對AI生成醫(yī)療建議的感知。研究發(fā)現(xiàn),這些參與者無法區(qū)分AI生成的回答與醫(yī)生的回答,甚至可能在沒有標注來源的信息中,主觀認為AI生成的醫(yī)療回答在全面性、有效性、完整度等方面表現(xiàn)更優(yōu)。該研究警示,AI“幻覺”疊加用戶感知“幻覺”可能導致治療延誤或失當。但當線上答復標注醫(yī)生來源、受到專家監(jiān)督時,用戶對信息的接納仍會倒向?qū)<覀?cè)。
也就是說,能夠找到多少專家合作、訓練出多少專家智能分身,關(guān)乎互聯(lián)網(wǎng)醫(yī)院核心競爭力的重塑。”前述醫(yī)療大模型研發(fā)人員說。
醫(yī)生參與的動力則是因為他們的診療效率可以因此提升。
AI智能體是‘躲在’優(yōu)秀的醫(yī)生背后,而非取代他們。過去,患者可能無法第一時間選擇到合適的科室,即便找到了合適的科室,專家在真正開始問診前不得不花費許多額外或重復的精力。”王仕銳說。
通過醫(yī)生智能體的輔助,具體來說,在采集病史、預檢分診到專家診療之間,額外增加智能體分流之后,專科專家就會自動落入診療流程的第四個環(huán)節(jié),診療效率進而能夠得到提升。”王仕銳以“未來醫(yī)生”問診大模型舉例表示,用戶提出問題后,首先由問診大模型接診或快速應答,進行用戶的意圖識別;隨后由全科醫(yī)生及其AI智能分體進入病史采集環(huán)節(jié);對患者進行第一次分流;接著大模型的“分揀性技術(shù)”會將患者匹配到相關(guān)多個學科的“專家智能體”并通過“專家智能體”間的MDT(多學科會診)并出具綜合診斷建議,這是進行二次分流;最后通過人機協(xié)作,大模型會再將患者轉(zhuǎn)診給某一科室的專家及其智能分身,由專家團隊的在線醫(yī)生最終開具醫(yī)囑。
專家診療的精準性也可能受益于智能體的介入。比如,有臨床專家反映,對于主訴病情時,醫(yī)患雙方語言體系不銜接的問題,熟悉醫(yī)生本人診療思路的AI智能分身可以做好前期“翻譯”工作;與此同時,如果多學科“專家智能體”的前置介入并開展AI會診,可以減少專家依據(jù)固有知識體系而發(fā)生診斷“偏倚”。
記者還了解到,目前,一些頭部醫(yī)院已開始將“專家智能體”延伸至患者隨訪和醫(yī)聯(lián)體內(nèi)部基層醫(yī)院醫(yī)生的培訓中,以期推動專家級的診療能力向基層醫(yī)療和家庭場景中的復制和推廣。
專家的顧慮
盡管臨床專家們期待通過AI大模型提高診療效率,但當大模型研發(fā)團隊找上門,希望以其臨床經(jīng)驗定制化地開發(fā)出一款智能體時,醫(yī)生的參與意愿可能并不高,更不要說,他們最終還需要為智能體的診斷“簽字”并擔負醫(yī)療責任。專家們的顧慮并非無的放矢。
首先,“專家智能體”往往是根據(jù)醫(yī)療垂直大模型“蒸餾”產(chǎn)生的小模型,大模型所學習的知識體系和采用的推理路徑直接影響了“專家智能體”的決策精度。
其次,有受訪業(yè)界人士透露,在專家“小模型”訓練時,專家語料的獲取可能是通過“拿著錄音筆記錄專家的問診流程”這一比較原始、存在“數(shù)據(jù)噪音”的方式。
此外,一些臨床專家憂慮醫(yī)療大模型在推理過程中的“黑箱”特性。比如,決策路徑不透明,復雜的運算邏輯難以解釋,錯誤發(fā)生時難以追溯根源等。“傳統(tǒng)法律體系通常將AI視為工具,其決策導致的損害責任多由醫(yī)生或醫(yī)療機構(gòu)承擔。”中國醫(yī)院協(xié)會信息專業(yè)委員會相關(guān)專家提出。
‘邏輯黑箱’問題和‘AI幻覺’是當前AI大模型面臨的兩大關(guān)鍵問題,直接影響模型的可信度、可用性和可控性。”王仕銳同樣提到。
換言之,“負責任的專家智能體”需要向?qū)<液陀脩簟伴_黑箱”——明確規(guī)則并確保數(shù)據(jù)的權(quán)威、可靠和推理過程的可溯源。
對于用戶,目前,在一些“專家智能體”線上問診中,往往會在用戶界面上標注每一句答復是由智能體還是專家團隊所作出的,并給予循證醫(yī)學的知識鏈接,以進一步增進診療雙方的互信。
對于專家,王仕銳提到,正是因為任何一次錯誤建議在醫(yī)療領(lǐng)域都可能威脅患者生命,所以,AI大模型真正地理解醫(yī)療并“構(gòu)建安全與有效性綜合評測標準”是獲取專家們信任的關(guān)鍵。
在此基礎(chǔ)上,還需要保證訓練模型所使用的規(guī)則庫質(zhì)量、醫(yī)生的權(quán)威性等,無效數(shù)據(jù)或者低效數(shù)據(jù)越多,越有可能產(chǎn)生誤判、誤診的概率。王仕銳認為,相較于寄希望于通過大量數(shù)據(jù)去灌模型之后的“智慧自然涌現(xiàn)”,“專家智能體”的開發(fā)應該將更多精力投入到大模型技術(shù)架構(gòu)的搭建上。
在經(jīng)AI和醫(yī)生團隊過濾之后,我們每天都會有1~2個病例會需要專家親自做出答復,專家需要非常了解和信任AI才能做到這一點。”王仕銳說。建立起高度信任關(guān)系的前提是專家深度參與到模型開發(fā)與迭代中,王仕銳打了一個比方:“就像專家教他們身邊的學生一樣。”
他所提及的技術(shù)路徑是:在前期開發(fā)中,基于醫(yī)療指南、臨床路徑、白皮書、論文等進行模型訓練,確保了診療的準確性和一致性,然而細膩程度還不足,此時需要復制專家臨床經(jīng)驗、學習專家智慧,實現(xiàn)診療方案的個性化和實用性;在后續(xù)迭代中,專家每天需要根據(jù)他們看到的真實患者的情況給予額外的和在指南中無法體現(xiàn)的反饋,這些經(jīng)驗的總結(jié)會再沉淀到大模型之中。
不過,也正是由于專家需要對其智能分身進行授權(quán)、背書、簽字和復盤,一種業(yè)界觀點認為,盡管專家被允許線上線下多點執(zhí)業(yè),理論上同一專家可以在不同問診平臺上均構(gòu)建自己的智能分身,但他們的精力可能僅足以勝任一個或幾個問診平臺上的工作量。
目前,專家們線上問診的工作量還有可能因為諸多技術(shù)難題,被進一步放大。比如,由于AI醫(yī)療大模型多模態(tài)識別能力尚不理想,對于患者所上傳的,不同尺寸、像素和色溫的影像資料,AI大模型難以精準識別或可能出現(xiàn)識別偏差。為了避免“專家智能體”做出錯誤判斷,有醫(yī)療大模型研發(fā)人士表示:“所有需要用眼睛觀察的皮膚科病例,我們都會請醫(yī)生在最終簽字前,先肉眼核對一遍影像資料。”