麻省总医院布里格姆医疗系统的最新研究发现,包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21款商用AI聊天机器人,在仅掌握患者基本症状信息时,超过80%无法给出恰当的鉴别诊断。尽管获得完整数据后准确率超90%,但早期推理能力不足,可能给依赖AI寻求医疗建议的患者带来风险。
周一发表于《JAMA Network Open》的一项新研究揭示,在仅掌握年龄、性别和症状等基本患者信息的情况下,包括最新版ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21款商用AI聊天机器人,超过80%的情况下无法给出恰当的鉴别诊断。
此项研究由麻省总医院布里格姆医疗系统MESH孵化器执行主任马克·苏奇主导,针对29个标准化临床病例对上述模型进行了测试。为模拟真实病例的诊断过程,研究人员采用逐步递进的方式向聊天机器人提供信息——从最基本的细节开始,再依次补充体格检查结果、实验室数据和影像资料。尽管所有模型在获得完整临床数据后,最终确诊的准确率均超过90%,但在医生日常需要应对的早期开放式临床推理阶段,这些模型的表现却始终差强人意。

研究人员推出了一款名为 PrIME-LLM 的新型评估工具——即"大语言模型医学评估比例指数"(Proportional Index of Medical Evaluation for LLMs)。该工具对模型在完整临床工作流程中的表现进行全面评估,而非仅衡量最终诊断的准确性。在这一框架下,各模型得分从 Gemini 1.5 Flash 的 64% 到 Grok 4 和 GPT-5 的 78% 不等,以推理能力为优化方向的模型整体表现更为突出。而传统准确率指标则普遍集中在 81% 至 90% 之间,掩盖了 PrIME-LLM 所揭示的推理能力的巨大差异。
"这些模型非常擅长在数据完整的情况下给出最终诊断,但在病例初期信息有限、缺乏明确方向时,它们就显得力不从心了," Succi 说道。近期发布的模型相较于旧版有所进步,而在文本之外同时提供实验室检查和影像检查结果时,模型的整体表现也会明显提升。massgeneralbrigham


早期推理与最终诊断准确性之间的差距,对越来越多依赖聊天机器人寻求医疗建议的患者而言,带来了直接的危害。研究人员警告称,若患者依照AI早期生成的错误建议采取行动,可能会接受不必要的医疗操作,或延误紧急治疗。在该研究中,即便模型在鉴别诊断环节失败,仍被允许进入临床诊疗的后续阶段——而在家中使用聊天机器人的患者,根本不存在这样的"安全网"。
"尽管AI持续进步,现成的大型语言模型尚不具备在无人监督下用于临床级别部署的条件,"Succi表示,"我们的研究结果再次印证:大型语言模型在医疗领域的应用,仍需要'人在回路'以及极为严格的监督。"massgeneralbrigham
上述研究结果发布之际,独立安全机构ECRI已将医疗领域中AI聊天机器人的滥用,列为2026年首要医疗技术安全风险。trustedseniorspecialists


免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断