麻省总医院推出BRIDGE基准,顶尖AI在真实临床文本上的表现远低于医学考试成绩。

一款在医学考试中拿到92分的顶级AI模型,面对真实世界的临床文本时准确率骤降至44.8%。这组对比鲜明的数字来自麻省总医院布莱根分院团队推出的全新评估基准BRIDGE。不同于以往以标准医学考试题目为范本编写的测试集,BRIDGE直接选用真实的临床数据来源:电子健康档案中医生的病历笔记、临床病例报告以及完整的医患问诊对话记录,而非经过出题者简化和标准化的教科书式提示。研究团队由资深作者Jie Yang和共同资深作者Joshua Lin领导,共测试了95个大语言模型,涵盖14个医学专科领域。评估任务紧密贴合医生的日常临床工作流程,包括急诊分诊、病情信息提取、疾病诊断、预后判断以及诊疗计费编码。一个特别引人注目的发现是同一模型在不同医学专科之间的表现差异非常悬殊。

Yang指出:"与众多现有的医学AI评估基准不同,BRIDGE着眼于真实世界的临床数据源,这些数据更能反映出实际医疗服务的全部复杂性。BRIDGE既可以帮助临床医生选择适合的AI工具,也能引导开发者改进模型性能。"BRIDGE还具备多语言能力,覆盖9种语言,这使得研究者能够精准定位模型在非英语临床场景中的失效模式,对于推动全球范围内更公平的临床自然语言处理系统建设具有重要意义。研究团队在Hugging Face上建立了一个持续更新的公开排行榜,目前已经对比了107个模型在相同临床任务上的表现,任何临床医生都可以随时查看最新排名来指导AI工具的选型。相关研究发表在《Nature Biomedical Engineering》上。模型在BRIDGE上的巨大表现落差清晰反映出它们对实际医疗场景中细腻临床语言理解的深层局限——这不仅是一个词汇量的问题,更涉及临床语境中的隐含判断、不典型症状描述、不完整病史记录以及跨科室的复杂关联推理等综合挑战。

原文:https://www.medicaleconomics.com/view/medical-ai-scores-high-on-exams-but-stumbles-on-real-patient-care-new-benchmark-finds