MedGPT:基于權(quán)威RAG評(píng)估框架展現(xiàn)優(yōu)秀醫(yī)療性能
檢索增強(qiáng)生成(RAG,Retrieval-Augmented Generation)技術(shù)正革新AI應(yīng)用領(lǐng)域,它整合外部知識(shí)庫與 LLM(Large Language Model,大語言模型)內(nèi)部知識(shí),提高了 AI 系統(tǒng)的準(zhǔn)確性和可靠性。多模態(tài)知識(shí)提取器的知識(shí)“召回能力”直接決定了大模型在回答推理時(shí)能否獲得準(zhǔn)確的專業(yè)知識(shí)。
但隨著 RAG 系統(tǒng)廣泛應(yīng)用,其評(píng)估和優(yōu)化面臨挑戰(zhàn)。現(xiàn)有的評(píng)估方法難以全面體現(xiàn) RAG 系統(tǒng)的復(fù)雜性和實(shí)際表現(xiàn)。近日,亞馬遜、上海人工智能研究院推出 RAGChecker 診斷工具,可為 RAG 系統(tǒng)提供細(xì)粒度、全面且可靠的診斷報(bào)告,并指明提升性能的操作方向。
RAGChecker框架設(shè)計(jì)了包括整體指標(biāo)、診斷檢索器指標(biāo)和診斷生成器指標(biāo)在內(nèi)的一套全面評(píng)估體系。通過對(duì)包含查詢、文檔和真實(shí)答案的樣本進(jìn)行輸入,并借助大型語言模型將文本分解為獨(dú)立的聲明再通過另一個(gè)模型驗(yàn)證每個(gè)聲明的準(zhǔn)確性,實(shí)現(xiàn)對(duì)模型的細(xì)粒度評(píng)估。
在相關(guān)研究中,RAGChecker經(jīng)過嚴(yán)格的實(shí)驗(yàn)驗(yàn)證,其與人類判斷的相關(guān)性遠(yuǎn)超 BLEU、ROUGE、BERTScore 等傳統(tǒng)評(píng)估指標(biāo),這充分彰顯了其科學(xué)性和可靠性。RAGCHECKER的指標(biāo)還可以幫助實(shí)踐者開發(fā)和評(píng)估更有效的RAG系統(tǒng),并通過調(diào)整RAG系統(tǒng)的設(shè)置(如檢索器的數(shù)量、塊大小、塊重疊比例和生成提示)來提供改進(jìn)建議。基于這樣一個(gè)權(quán)威的評(píng)估框架,我們對(duì)MedGPT這一醫(yī)療垂直大模型進(jìn)行了全面的性能測(cè)試。

Figure:Illustration of the proposed metrics in RAGChecker
本次測(cè)試選取了30個(gè)來自專業(yè)醫(yī)生模擬的醫(yī)療專業(yè)問題,測(cè)試結(jié)果顯示,MedGPT 在多個(gè)關(guān)鍵指標(biāo)上展現(xiàn)出了顯著的優(yōu)勢(shì)。
在整體評(píng)估方面(衡量整個(gè)RAG流程的整體質(zhì)量),MedGPT 的精度(precision)達(dá)到了 65.4,召回(recall)為 58.3,F(xiàn)1 score達(dá)到 59.9,這些指標(biāo)相較于參考原文中提到其他模型的更佳分?jǐn)?shù)在表現(xiàn)出更優(yōu)的得分。這意味著 MedGPT 在處理醫(yī)療問題時(shí),能夠更精準(zhǔn)地命中關(guān)鍵信息,并且全面地覆蓋問題相關(guān)的知識(shí)領(lǐng)域,為醫(yī)療決策提供有力的數(shù)據(jù)支持。
在檢索維度上(查找相關(guān)信息的優(yōu)勢(shì)和劣勢(shì)能力),上下文精度(context precision)達(dá)到 62.2。這表明 MedGPT 在檢索醫(yī)療知識(shí)時(shí),能夠以較高的精準(zhǔn)度篩選出與問題緊密相關(guān)的內(nèi)容,確保為后續(xù)的答案生成提供高質(zhì)量的素材。
而在生成維度(利用檢索到的上下文、處理嘈雜信息以及生成準(zhǔn)確和忠實(shí)響應(yīng)的能力),MedGPT 更是表現(xiàn)出了優(yōu)秀的性能。其上下文利用率(context utilization)為 66.3,充分體現(xiàn)了它能夠高效地整合和運(yùn)用檢索到的醫(yī)療知識(shí)。
模型生成響應(yīng)中不正確聲明在相關(guān) chunk 中的噪音敏感度(noise sensitivity in relevant),MedGPT 僅為 16.4;模型生成響應(yīng)中不正確聲明在不相關(guān) chunk 中的噪音敏感度(noise sensitivity in irrelevant)為 4.5,這一數(shù)據(jù)有力地證明了 MedGPT 在處理復(fù)雜醫(yī)療信息時(shí),具有出色的抗干擾能力,能夠有效過濾掉無關(guān)的噪音信息,專注于生成準(zhǔn)確、有價(jià)值的答案。綜合來看,MedGPT 在醫(yī)療垂直領(lǐng)域的表現(xiàn)已經(jīng)相當(dāng)突出,能夠?yàn)獒t(yī)療專業(yè)人士和患者提供可靠、準(zhǔn)確的醫(yī)療知識(shí)和建議。

上述測(cè)試結(jié)果有力地證實(shí),MedGPT 作為專注于醫(yī)療領(lǐng)域的垂直大模型,在應(yīng)對(duì)醫(yī)療專業(yè)問題時(shí)呈現(xiàn)出了優(yōu)秀的性能表現(xiàn)。以其高精準(zhǔn)度、高度可靠性以及強(qiáng)大的抗干擾能力,在醫(yī)療人工智能領(lǐng)域中嶄露頭角。無論是輔助醫(yī)療人員進(jìn)行病癥診斷,還是為患者提供專業(yè)的醫(yī)療咨詢服務(wù),MedGPT無疑將會(huì)是非常理想的選擇,能夠?yàn)獒t(yī)療行業(yè)的智能化進(jìn)程提供強(qiáng)勁的推動(dòng)力。