波士顿儿童医院等机构利用OpenAI o3 Deep Research模型,重新分析376例未确诊罕见病病例。AI辅助专家从海量数据中发现线索,最终确诊18例(4.8%),其中7例为信息碎片化导致的漏诊。研究表明,AI可帮助专家在知识不断更新的背景下实现更高效的再分析流程。
即使进行了基因组测序,许多罕见病患者仍然未获得明确的遗传诊断。大约半数患者在经过全面检测和专家评估后仍无法确诊。他们的医疗数据中可能包含线索,但需要从成千上万个可能的遗传变异、碎片化的临床记录以及快速更新的科学文献中寻找。
随着新的基因-疾病关联、病例报告和分类证据不断积累,一些未解病例可能变得可重新解释。
来自波士顿儿童医院Manton孤儿疾病研究中心、哈佛大学和OpenAI的研究人员,利用OpenAI o3 Deep Research推理模型,分析了376例此前未确诊的病例的临床和基因组信息(已去标识化)。模型为研究人员和临床医生生成了有证据支持的候选解释。经过专家复核、额外检测和临床确认,医生最终确诊了18例——在专家此前分析的基础上新增4.8%的诊断率。该研究于2026年6月18日发表在《NEJM AI》上,展示了AI辅助研究流程如何帮助专家重新审视最棘手的病例。
这些病例中有许多多年未得到诊断。研究中,OpenAI o3 Deep Research帮助研究人员发现线索,随后通过既定的临床流程进行评估,表明随着知识更新,专家主导的定期再分析可以更具可扩展性。模型并未对任何患者做出诊断或临床决策,而是生成有证据支持的假设供专家审查,并在适当情况下通过额外检测和临床实验室确认。
一个不确定的基因检测结果并非永久成立。患者的表型描述、检测结果和家族史可能分散在不同数据库中,使用不同的标识符、格式和词汇。将这些记录关联起来非常困难,即使专家也可能漏诊。此外,专家可能在一个相关基因或其变异被确认与疾病关联之前就对儿童进行基因组测序。随着科学知识进展,同样的数据可能揭示出以往无法发现的答案。
罕见病再分析既是一个科学问题,也是一个维护问题。患者的基因组可能保持不变,但围绕它的证据不断变化:研究人员将新基因和变异与疾病关联,实验室重新分类旧变异,病例数据库和论文积累新观察。每次更新都可能使一个旧病例值得重新审视,因此许多机构积压了大量需要与移动知识库保持同步的基因组。
在这项研究中,研究人员设计了工作流程,使模型作为现有基因组分析流程之上的“解释优先”推理层。模型不仅仅返回一个排序的基因,而是要求将临床特征、遗传模式、变异证据和科学文献联系起来,形成可让人类审查的论证。
对于每个病例,研究团队整理了一份去标识化的数据包,包含标准化的人类表型本体(HPO)术语来描述患者临床表现、偶尔的临床医生笔记和任何描述性临床诊断、年龄和性别等元数据,以及过滤后的变异表。变异表记录了每个变异的稀有性、对编码蛋白的预测影响、ClinVar分类以及可用家庭成员中的信号质量。大多数病例包含孩子和双亲的数据。
研究团队要求模型提出最合理的分子解释并展示推理过程。研究人员随后使用临床实验室用于分类遗传变异的相同ACMG/AMP框架审查模型输出。至少两名团队成员审查每个候选方案,分歧通过共识解决,模型输出从不被视为诊断。只有在合格专家审查证据、变异被分类为致病或可能致病、经CLIA认证实验室确认,并且临床团队将结果返回给家庭后,才计为诊断。
在分析未解决病例之前,团队在已确诊病例上优化了工作流程。在包含多种罕见病的51例中,重复运行恢复了48例的正确基因和变异。在57例神经肌肉疾病病例中,工作流程在重复运行中正确诊断了45例。在15例长读长基因组病例中,每次运行都正确指出了基因,并正确识别了12例的两个致病等位基因。这些评估有助于提示词开发,并表明专家审查仍然是必要的。
模型自我报告的置信度得分与这些已确诊病例的正确诊断相关:一致正确调用的平均最低得分为85.6,错误或未知调用为42.1。这些得分并非校准概率,团队未将其用于替代证据或临床裁决,但有助于指导专家审查人员关注最有希望的候选诊断。
团队随后将该工作流程应用于四组此前未解决的病例:神经发育障碍儿童、罕见神经肌肉疾病患者、早发性精神病儿童和青少年,以及儿科意外猝死病例。这些并非等待首次审查的新病例,许多已经经过多个商业或机构分析流程以及多学科团队的讨论。
| 队列 | 病例数 | 新发现诊断 | 诊断率 |
|---|---|---|---|
| 神经发育 | 100 | 10 | 10.0% |
| 神经肌肉疾病 | 61 | 4 | 6.6% |
| 儿科意外猝死 | 200 | 2 | 1.0% |
| 早发性精神病 | 15 | 2 | 13.3% |
| 总计 | 376 | 18 | 4.8% |
早发性精神病队列样本量小,其百分比置信区间较宽。诊断率也反映了每个队列可能由单基因解释的概率。
在模型提出候选方案、专家完成审查和临床确认后,医生在4.8%的病例中建立了诊断。这一比率虽然不高,但在此群体中意义重大,因为此前的专家审查未能解决这些病例。类似的再分析研究报告在经过严格审查的病例中仅有个位数的增长;更高的诊断率通常来自包含新病例或已知疾病等待遗传确认的研究。
在18个诊断中,有7个是“再发现”:这些诊断已在本地研究流程之外被建立,但未出现在团队审查的记录中。在几个病例中,变异已在公共数据库中列为致病或可能致病,突显了跨数据源综合信息的操作挑战。
在一个早发性精神病病例中,模型推断了一个未出现在输入数据中的基因组结构事件。它将染色体22上的低质量信号与患儿的心脏、免疫、神经发育和精神症状联系起来,假设存在与DiGeorge综合征相关的22q11.2缺失。该假设变异通过后续基因组测序得到确认。
尽管提示词要求一个单基因原因,模型有时会提出两个基因更好地解释复杂表现。例如,LAMA2和FOXP1的变异共同解释了某个病例的肌肉和神经发育特征;另一个病例存在涉及TTN和SRPK3的未被认识的双基因解释。
除了诊断,模型还为一个名为白癜风(vitiligo)的疾病提出了一种可能的新机制解释。在一个神经发育病例中,模型强调了一名白癜风患者S1PR1基因中一个11个氨基酸的缺失。S1PR1编码一种参与信号传导、免疫细胞运动和组织的细胞表面受体。模型综合证据表明,该缺失可能改变受体结构和信号传导,从而减少色素生成,同时帮助免疫细胞在皮肤中持续存在。
提出的S1PR1-白癜风关联需要额外的实验验证,但展示了AI在将结构生物学、免疫学和临床遗传学的分散发现转化为具体、可测试假设方面的强大作用。
团队在神经肌肉队列中也观察到可能的表型扩展。HSPB8和CDK13的有害变异并不完全匹配这些基因最知名的疾病,表明可能存在更广泛的临床谱,需要更多病例和实验室工作来验证。
这项研究表明,通用推理模型可以通过将表型、遗传、变异注释、数据质量模式和科学文献整合为可审查的假设,为回顾性基因组再分析做出贡献。它也表明为什么定期再分析很重要:一些答案只有在知识进步或碎片化记录被整合后才能浮出水面。
该研究并非证据表明患者、临床医生或客户应使用OpenAI模型来诊断疾病或做出医疗决策。它不描述或认可将OpenAI o3 Deep Research、ChatGPT或任何其他OpenAI产品用于诊断的客户用途。模型未诊断任何参与者;每个诊断均由医生和其他合格的临床专家通过既定的审查、检测和临床确认流程做出。
研究是回顾性的,队列是异质的,审查人员未对模型置信度设盲。研究人员未测量节省的时间、成本、临床医生工作量、假阳性负担或护理变化。他们也未系统评估其他类型的遗传变异,如结构变异、重复扩增、深度内含子改变或嵌合体。
大语言模型可能误读上下文或产生看似合理但经不起推敲的解释。因此,每个结果都经过了人类裁决和临床确认。模型扩大了搜索范围并聚焦了后续人类主导的分析,但并未决定应将哪些信息或诊断返回给家庭。
本研究使用了去标识化信息,未在批准环境之外使用或传输受保护的健康信息。更广泛的临床部署需要同样关注隐私、安全、可审计性和当地法规,这适用于所有医疗保健。模型访问不能取代测序基础设施、遗传咨询、确认性检测或专家判断。
未来应进行前瞻性多中心研究,比较LLM辅助再分析与标准实践在诊断率、候选方案时间、临床医生投入、假阳性负担、成本和对护理的影响方面的差异。版本化的提示词、参考检查、审计日志和校准的不确定性对于可重复性和安全性至关重要。此类研究仍需要合格的临床医生评估证据、安排适当检测并做出诊断或治疗决策。
本研究使用了OpenAI o3 Deep Research。较新的通用模型可以搜索和综合更多科学材料,而专用系统如GPT‑Rosalind则专为更深层次的生命科学工作设计,包括变异对蛋白质结构和功能的影响。这些能力未在此测试,需要自己的评估和访问控制。
虽然OpenAI协助支持了这项初步研究,但Manton中心将通过OpenAI基金会的资助领导下一阶段的工作。该资助将支持中心更广泛的努力,开发一个平台无关、低成本的遗传学AI辅助工具,帮助临床团队更快速、更一致地分析罕见病例。
长期的研究机会在于探索专家主导的AI辅助再分析是否有助于科学理解跟上发现的步伐。其前景并非AI取代医生的诊断,而是经过仔细评估的研究工具可能帮助专家发现值得调查的证据。对于成千上万个家庭而言,今天未回答的问题不必永远得不到答案。
免费获取企业 AI 成熟度诊断报告,发现转型机会