前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

AI医疗诊断失败率超80%,临床推理仍是短板

报告2026年4月14日· 原作者:AccessPath 研究院· 3 分钟阅读0 阅读

麻省总医院布里格姆医疗系统的最新研究发现,包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21款商用AI聊天机器人,在仅掌握患者基本症状信息时,超过80%无法给出恰当的鉴别诊断。尽管获得完整数据后准确率超90%,但早期推理能力不足,可能给依赖AI寻求医疗建议的患者带来风险。

周一发表于《JAMA Network Open》的一项新研究揭示,在仅掌握年龄、性别和症状等基本患者信息的情况下,包括最新版ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21款商用AI聊天机器人,超过80%的情况下无法给出恰当的鉴别诊断。

此项研究由麻省总医院布里格姆医疗系统MESH孵化器执行主任马克·苏奇主导,针对29个标准化临床病例对上述模型进行了测试。为模拟真实病例的诊断过程,研究人员采用逐步递进的方式向聊天机器人提供信息——从最基本的细节开始,再依次补充体格检查结果、实验室数据和影像资料。尽管所有模型在获得完整临床数据后,最终确诊的准确率均超过90%,但在医生日常需要应对的早期开放式临床推理阶段,这些模型的表现却始终差强人意。

Image 4: State clears path for Mass General Brigham projects totaling ...

新基准测试揭露隐藏的薄弱环节

研究人员推出了一款名为 PrIME-LLM 的新型评估工具——即"大语言模型医学评估比例指数"(Proportional Index of Medical Evaluation for LLMs)。该工具对模型在完整临床工作流程中的表现进行全面评估,而非仅衡量最终诊断的准确性。在这一框架下,各模型得分从 Gemini 1.5 Flash 的 64% 到 Grok 4 和 GPT-5 的 78% 不等,以推理能力为优化方向的模型整体表现更为突出。而传统准确率指标则普遍集中在 81% 至 90% 之间,掩盖了 PrIME-LLM 所揭示的推理能力的巨大差异。

"这些模型非常擅长在数据完整的情况下给出最终诊断,但在病例初期信息有限、缺乏明确方向时,它们就显得力不从心了," Succi 说道。近期发布的模型相较于旧版有所进步,而在文本之外同时提供实验室检查和影像检查结果时,模型的整体表现也会明显提升。massgeneralbrigham

Image 5

Image 6

对患者的现实风险

早期推理与最终诊断准确性之间的差距,对越来越多依赖聊天机器人寻求医疗建议的患者而言,带来了直接的危害。研究人员警告称,若患者依照AI早期生成的错误建议采取行动,可能会接受不必要的医疗操作,或延误紧急治疗。在该研究中,即便模型在鉴别诊断环节失败,仍被允许进入临床诊疗的后续阶段——而在家中使用聊天机器人的患者,根本不存在这样的"安全网"。

"尽管AI持续进步,现成的大型语言模型尚不具备在无人监督下用于临床级别部署的条件,"Succi表示,"我们的研究结果再次印证:大型语言模型在医疗领域的应用,仍需要'人在回路'以及极为严格的监督。"massgeneralbrigham

上述研究结果发布之际,独立安全机构ECRI已将医疗领域中AI聊天机器人的滥用,列为2026年首要医疗技术安全风险。trustedseniorspecialists

Image 7

Image 8

标签:AI医疗大模型临床推理ChatGPT

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

DeepSeek将API价格降至原来的十分之一,加剧AI价格战
TOP1

DeepSeek将API价格降至原来的十分之一,加剧AI价格战

Anthropic与亚马逊扩大合作,新增5GW计算容量
TOP2

Anthropic与亚马逊扩大合作,新增5GW计算容量

3

俄罗斯进步95号货运飞船成功发射

17小时前
俄罗斯进步95号货运飞船成功发射
4

Anthropic 悉尼办公室开业,任命澳新总经理

5小时前
5

Slack 在英起诉微软捆绑 Teams,反垄断大战再升级

5小时前
Slack 在英起诉微软捆绑 Teams,反垄断大战再升级
6

奥特曼警告:AGI或致工作消失与经济崩溃

5小时前
奥特曼警告:AGI或致工作消失与经济崩溃
7

Anthropic 与 NEC 合作打造日本最大 AI 工程团队

5小时前
Anthropic 与 NEC 合作打造日本最大 AI 工程团队
8

台积电前工程师泄露2nm机密,被判10年

5小时前
台积电前工程师泄露2nm机密,被判10年
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款