檢索增強生成(RAG,Retrieval-Augmented Generation)技術正革新AI應用領域,它整合外部知識庫與 LLM(Large Language Model,大語言模型)內部知識,提高了 AI 系統的準確性和可靠性。多模態知識提取器的知識“召回能力”直接決定了大模型在回答推理時能否獲得準確的專業知識。
但隨著 RAG 系統廣泛應用,其評估和優化面臨挑戰。現有的評估方法難以全面體現 RAG 系統的復雜性和實際表現。近日,亞馬遜、上海人工智能研究院推出 RAGChecker 診斷工具,可為 RAG 系統提供細粒度、全面且可靠的診斷報告,并指明提升性能的操作方向。
RAGChecker框架設計了包括整體指標、診斷檢索器指標和診斷生成器指標在內的一套全面評估體系。通過對包含查詢、文檔和真實答案的樣本進行輸入,并借助大型語言模型將文本分解為獨立的聲明再通過另一個模型驗證每個聲明的準確性,實現對模型的細粒度評估。
在相關研究中,RAGChecker經過嚴格的實驗驗證,其與人類判斷的相關性遠超 BLEU、ROUGE、BERTScore 等傳統評估指標,這充分彰顯了其科學性和可靠性。RAGCHECKER的指標還可以幫助實踐者開發和評估更有效的RAG系統,并通過調整RAG系統的設置(如檢索器的數量、塊大小、塊重疊比例和生成提示)來提供改進建議。基于這樣一個權威的評估框架,我們對MedGPT這一醫療垂直大模型進行了全面的性能測試。
Figure:Illustration of the proposed metrics in RAGChecker
本次測試選取了30個來自專業醫生模擬的醫療專業問題,測試結果顯示,MedGPT 在多個關鍵指標上展現出了顯著的優勢。
在整體評估方面(衡量整個RAG流程的整體質量),MedGPT 的精度(precision)達到了 65.4,召回(recall)為 58.3,F1 score達到 59.9,這些指標相較于參考原文中提到其他模型的更佳分數在表現出更優的得分。這意味著 MedGPT 在處理醫療問題時,能夠更精準地命中關鍵信息,并且全面地覆蓋問題相關的知識領域,為醫療決策提供有力的數據支持。
在檢索維度上(查找相關信息的優勢和劣勢能力),上下文精度(context precision)達到 62.2。這表明 MedGPT 在檢索醫療知識時,能夠以較高的精準度篩選出與問題緊密相關的內容,確保為后續的答案生成提供高質量的素材。
而在生成維度(利用檢索到的上下文、處理嘈雜信息以及生成準確和忠實響應的能力),MedGPT 更是表現出了優秀的性能。其上下文利用率(context utilization)為 66.3,充分體現了它能夠高效地整合和運用檢索到的醫療知識。
模型生成響應中不正確聲明在相關 chunk 中的噪音敏感度(noise sensitivity in relevant),MedGPT 僅為 16.4;模型生成響應中不正確聲明在不相關 chunk 中的噪音敏感度(noise sensitivity in irrelevant)為 4.5,這一數據有力地證明了 MedGPT 在處理復雜醫療信息時,具有出色的抗干擾能力,能夠有效過濾掉無關的噪音信息,專注于生成準確、有價值的答案。綜合來看,MedGPT 在醫療垂直領域的表現已經相當突出,能夠為醫療專業人士和患者提供可靠、準確的醫療知識和建議。
上述測試結果有力地證實,MedGPT 作為專注于醫療領域的垂直大模型,在應對醫療專業問題時呈現出了優秀的性能表現。以其高精準度、高度可靠性以及強大的抗干擾能力,在醫療人工智能領域中嶄露頭角。無論是輔助醫療人員進行病癥診斷,還是為患者提供專業的醫療咨詢服務,MedGPT無疑將會是非常理想的選擇,能夠為醫療行業的智能化進程提供強勁的推動力。
2014-2025 醫聯
蜀ICP備14021831號
互聯網藥品信息服務資格證編號(川)-經營性-2021-0058
成都醫云科技有限公司 All Rights Reserved
地址:北京市朝陽區東三環中路7號北京財富中心寫字樓A座27層