MedGPT：基于權(quán)威RAG評(píng)估框架展現(xiàn)優(yōu)秀醫(yī)療性能

2025年01月22日

檢索增強(qiáng)生成（RAG，Retrieval-Augmented Generation）技術(shù)正革新AI應(yīng)用領(lǐng)域，它整合外部知識(shí)庫與 LLM（Large Language Model，大語言模型）內(nèi)部知識(shí)，提高了 AI 系統(tǒng)的準(zhǔn)確性和可靠性。多模態(tài)知識(shí)提取器的知識(shí)“召回能力”直接決定了大模型在回答推理時(shí)能否獲得準(zhǔn)確的專業(yè)知識(shí)。

但隨著 RAG 系統(tǒng)廣泛應(yīng)用，其評(píng)估和優(yōu)化面臨挑戰(zhàn)。現(xiàn)有的評(píng)估方法難以全面體現(xiàn) RAG 系統(tǒng)的復(fù)雜性和實(shí)際表現(xiàn)。近日，亞馬遜、上海人工智能研究院推出 RAGChecker 診斷工具，可為 RAG 系統(tǒng)提供細(xì)粒度、全面且可靠的診斷報(bào)告，并指明提升性能的操作方向。

RAGChecker框架設(shè)計(jì)了包括整體指標(biāo)、診斷檢索器指標(biāo)和診斷生成器指標(biāo)在內(nèi)的一套全面評(píng)估體系。通過對(duì)包含查詢、文檔和真實(shí)答案的樣本進(jìn)行輸入，并借助大型語言模型將文本分解為獨(dú)立的聲明再通過另一個(gè)模型驗(yàn)證每個(gè)聲明的準(zhǔn)確性，實(shí)現(xiàn)對(duì)模型的細(xì)粒度評(píng)估。

在相關(guān)研究中，RAGChecker經(jīng)過嚴(yán)格的實(shí)驗(yàn)驗(yàn)證，其與人類判斷的相關(guān)性遠(yuǎn)超 BLEU、ROUGE、BERTScore 等傳統(tǒng)評(píng)估指標(biāo)，這充分彰顯了其科學(xué)性和可靠性。RAGCHECKER的指標(biāo)還可以幫助實(shí)踐者開發(fā)和評(píng)估更有效的RAG系統(tǒng)，并通過調(diào)整RAG系統(tǒng)的設(shè)置（如檢索器的數(shù)量、塊大小、塊重疊比例和生成提示）來提供改進(jìn)建議。基于這樣一個(gè)權(quán)威的評(píng)估框架，我們對(duì)MedGPT這一醫(yī)療垂直大模型進(jìn)行了全面的性能測(cè)試。

Figure：Illustration of the proposed metrics in RAGChecker

本次測(cè)試選取了30個(gè)來自專業(yè)醫(yī)生模擬的醫(yī)療專業(yè)問題，測(cè)試結(jié)果顯示，MedGPT 在多個(gè)關(guān)鍵指標(biāo)上展現(xiàn)出了顯著的優(yōu)勢(shì)。

在整體評(píng)估方面（衡量整個(gè)RAG流程的整體質(zhì)量），MedGPT 的精度（precision）達(dá)到了 65.4，召回（recall）為 58.3，F(xiàn)1 score達(dá)到 59.9，這些指標(biāo)相較于參考原文中提到其他模型的更佳分?jǐn)?shù)在表現(xiàn)出更優(yōu)的得分。這意味著 MedGPT 在處理醫(yī)療問題時(shí)，能夠更精準(zhǔn)地命中關(guān)鍵信息，并且全面地覆蓋問題相關(guān)的知識(shí)領(lǐng)域，為醫(yī)療決策提供有力的數(shù)據(jù)支持。

在檢索維度上（查找相關(guān)信息的優(yōu)勢(shì)和劣勢(shì)能力），上下文精度（context precision）達(dá)到 62.2。這表明 MedGPT 在檢索醫(yī)療知識(shí)時(shí)，能夠以較高的精準(zhǔn)度篩選出與問題緊密相關(guān)的內(nèi)容，確保為后續(xù)的答案生成提供高質(zhì)量的素材。

而在生成維度（利用檢索到的上下文、處理嘈雜信息以及生成準(zhǔn)確和忠實(shí)響應(yīng)的能力），MedGPT 更是表現(xiàn)出了優(yōu)秀的性能。其上下文利用率（context utilization）為 66.3，充分體現(xiàn)了它能夠高效地整合和運(yùn)用檢索到的醫(yī)療知識(shí)。

模型生成響應(yīng)中不正確聲明在相關(guān) chunk 中的噪音敏感度（noise sensitivity in relevant），MedGPT 僅為 16.4；模型生成響應(yīng)中不正確聲明在不相關(guān) chunk 中的噪音敏感度（noise sensitivity in irrelevant）為 4.5，這一數(shù)據(jù)有力地證明了 MedGPT 在處理復(fù)雜醫(yī)療信息時(shí)，具有出色的抗干擾能力，能夠有效過濾掉無關(guān)的噪音信息，專注于生成準(zhǔn)確、有價(jià)值的答案。綜合來看，MedGPT 在醫(yī)療垂直領(lǐng)域的表現(xiàn)已經(jīng)相當(dāng)突出，能夠?yàn)獒t(yī)療專業(yè)人士和患者提供可靠、準(zhǔn)確的醫(yī)療知識(shí)和建議。

上述測(cè)試結(jié)果有力地證實(shí)，MedGPT 作為專注于醫(yī)療領(lǐng)域的垂直大模型，在應(yīng)對(duì)醫(yī)療專業(yè)問題時(shí)呈現(xiàn)出了優(yōu)秀的性能表現(xiàn)。以其高精準(zhǔn)度、高度可靠性以及強(qiáng)大的抗干擾能力，在醫(yī)療人工智能領(lǐng)域中嶄露頭角。無論是輔助醫(yī)療人員進(jìn)行病癥診斷，還是為患者提供專業(yè)的醫(yī)療咨詢服務(wù)，MedGPT無疑將會(huì)是非常理想的選擇，能夠?yàn)獒t(yī)療行業(yè)的智能化進(jìn)程提供強(qiáng)勁的推動(dòng)力。

醫(yī)聯(lián)受桂林市衛(wèi)生信息學(xué)會(huì)邀請(qǐng)參加人工智能應(yīng)用技術(shù)交流沙龍醫(yī)聯(lián)獲抗疫互聯(lián)網(wǎng)醫(yī)療健康服務(wù)企業(yè)殊榮

美女免费黄网站-美女免费精品高清毛片在线视-美女免费精品视频在线观看-美女免费毛片-成人在激情在线视频-成人在免费观看视频国产

MedGPT：基于權(quán)威RAG評(píng)估框架展現(xiàn)優(yōu)秀醫(yī)療性能