AI化学家近自主改进药物合成关键反应

OpenAI 在科学领域的工作基于一个简单信念：先进AI可以成为科学家的强大伙伴，帮助探索更多想法、连接遥远概念、设计更好实验，并加速有益于人类的发现。此前，OpenAI 已分享过模型在数学（单位距离问题）、理论物理（胶子振幅新结果）和生物学（GPT‑5 在自动实验室中降低无细胞蛋白合成成本）上的早期贡献，还推出了专为生命科学研究和药物发现流程设计的 GPT‑Rosalind。

这次，OpenAI 将方向延伸到药物化学。药物化学不能仅靠推理衡量——假设必须在实验室里用真实的分子、仪器和实验噪声来验证。与 Molecule.one 合作，OpenAI 将 GPT‑5.4 连接到 Maria——一个集成高通量实验室的自主化学AI智能体，并赋予其一个开放式目标：改进某类重要反应。系统生成了研究提案，设计并运行实验，分析实验数据，并提出后续实验。人类通过设计引导和评分提示、选择待测试提案来保持参与，同时对实验计划做有限修正、协助基本实验室操作，并独立验证最终结果。

最有潜力的提案 OAI-M1-03 聚焦于 Chan-Lam 偶联的一个困难但实用的版本——化学家利用该反应形成碳氮键。从改进用于工艺化学的 Chan-Lam 偶联这个开放式目标出发，GPT‑5.4 独立识别出伯磺酰胺是一个困难且高价值的底物类别，并建议使用温和氧化剂（包括 TEMPO）来改善反应。

经过两轮实验迭代，该想法带来了显著改进。在优化条件下，88% 的硼酸和 83% 的磺酰胺底物的实测产率得到提升。平均产率从 16.6% 上升到 25.2%，产率超过 30% 的反应比例从 15.6% 增加到 37.5%。人类化学家随后在实验室规模重复了代表性反应，证实了微升级结果：14 个底物对中有 11 个产率提高，大部分提高了两倍以上。药物化学家需要的正是这种能在实际实验室流程中起效的反应，而不仅是微升级筛选实验中的表现。

药物化学的进步尤其令人兴奋，因为合成常常是药物发现的瓶颈：科学家只能测试他们能够合成的分子。磺酰胺基团出现在抗肿瘤药、抗菌药和利尿剂等多种治疗领域中，但伯磺酰胺与硼酸的 Chan-Lam 偶联历史产率一直很低。让这种反应更可靠，能为药物化学家提供更广泛、更实用的方式来制备和探索潜在有用分子。

化学问题为何重要

有机化学是所有小分子药物以及农业、电子、材料科学产品的基础。当一个反应能在多种不同原料上稳定形成同种化学键时，它就特别有用。反应产率低或副产物过多时，化学家可能不得不放弃有前景的分子，或花大量时间另寻路线。这使得合成成为药物发现中的主要瓶颈。

Chan-Lam 偶联在药物化学中很有用，因为它能形成药物中常见的碳氮键。然而，该反应并非对所有分子类别都同样有效——尤其是伯磺酰胺与硼酸的偶联历史产率低。磺酰胺是肿瘤学和传染病药物中的重要分子家族。让这个反应更可靠，能为药物化学家提供更广泛的探索工具。

连接 GPT‑5.4 与 Maria AI 和实验室

结合的系统发挥了互补能力：科学家使用 Maria AI 编写提示，在框架内结合 GPT‑5.4 生成并排序数千个研究提案；人类化学家审查排名最高的少量提案，选择四个进行实验室测试；Maria AI 将选中的高层次计划转化为详细实验指令，运行数千个高通量实验，分析原始数据，并将结构化结果返回给 GPT‑5.4。

四个被选提案之一 OAI-M1-03 建议使用 TEMPO 等温和氧化剂来改善 Chan-Lam 反应性能。化学家认为这个建议既出乎意料又有趣。最终研究提案由 Maria 生成实验网格，人类做了少量修正——最大的修正来自避免使用二甲亚砜（DMSO）作为溶剂，因为化学家担心它会与作为对照的强氧化剂反应。

整个流程从 3 月 4 日的第一次提示到 6 月 4 日与独立专家分享结果，耗时三个月。

OpenAI 将这一工作描述为“近自主”而非“完全自主”，因为人类化学家在整个过程中仍做出了重要决策：模型提出关键研究想法，人类提供高层次方向判断、修正实验细节、协助制备实验室耗材和试剂，并手动重复关键实验。

发现

OAI-M1-03 将 TEMPO 确定为伯磺酰胺 Chan-Lam 偶联的有用添加剂。在优化条件下，反应在两方面得到改进：平均产率上升，更多底物组合达到实用产率。

两轮实验中，Maria 共运行了 10,080 个反应——比一位化学家每天做三个反应、持续十年完成的量还多。这种规模很重要：仅测试少数例子时结果可能误导，一个反应在一对原料上看似不错，但在更广分子集合上可能失败。数千个反应使得在十种氧化剂中识别出 TEMPO、观察其效果在多种组合中重复并发现其局限性成为可能。

分析第一轮数据后，系统提出更集中的第二轮实验来测试后续假设。一个有用的后续发现是：TEMPO 可被更廉价的类似物 4-羟基-TEMPO 替代，且性能几乎不损失。

结果在 Maria 实验室的微升级筛选之外也经受了考验。人类化学家在实验室规模手动重复了代表性反应，观察到 14 个底物对中有 11 个产率提高，其中 8 个提高超过两倍。这种复现很重要，因为极小规模实验有时会产生放大后消失的假象，而实验室规模验证是科学期刊发表前的惯例。

分子比例尺验证实验中的贴标玻璃反应瓶

四位外部化学专家审阅了描述 OAI-M1-03 的预印本，认为结果是新颖且值得分享的。更严格的检验将来自下一步：独立实验室能否复现，以及化学家是否在更广泛分子中发现其有用性。

在三个月期间，GPT‑5.4 生成并由 Maria 测试的其他三个提案中，OAI-M1-02 和 OAI-M1-04 在 Maria 实验室中得到实验验证，OAI-M1-01 被证否。对这些结果的分析仍在进行中。

局限性

该研究表明模型能在有机化学中做出有用贡献——不仅仅是总结文献或建议一次性实验，而是提出具体且出乎意料的假设，为人类审查提供方案，设计实验，解释实验数据，并设计后续实验。

但它并未证明 AI 能独立从头到尾运行化学研究项目：人类判断仍然至关重要，工作流程依赖于专用高通量基础设施；也未证明该方法能泛化到其他偶联反应、其他底物类别或生产条件。

产率估计来自高通量平台，实验室验证覆盖了 14 个代表性底物对。仍需更多工作来表征反应机理、界定底物范围、测量不同实验室条件下的性能，以及独立复现结果。

准备与安全

化学能力需要谨慎对待，因为服务于医学和材料科学的工具也可能被滥用。OpenAI 有意将工作范围限定在合法的药物化学问题：改进一个用于制造类药分子的已知偶联反应。实验不涉及毒素、化学武器或要求设计有害化合物。这些结果不应被解读为系统能帮助有害应用的证据。

OpenAI 通过准备框架评估和缓解先进模型能力带来的新兴风险，包括化学和生物领域。本工作中使用的模型已接受英国人工智能安全研究所的相关评估，且系统被设计为拒绝针对有害应用的请求。实验工作流程增加了另一层控制：人类化学家选择进入实验室的提案，审查实验计划，并保留对物理基础设施的控制。

OpenAI 认为这是研究 AI 在实验化学中潜力的负责任方式：选择具有明确科学价值的问题空间，将模型级保障与专家监督相结合，并通过受约束的实际实验来评估系统。随着这些能力提升，将继续评估新兴风险，加强保障，并明确说明结果的含义与局限。

下一步

近期步骤是科学性的：测试更广泛的起始原料，研究添加剂改善反应的原因，绘制效果起效和失效的范围，并支持独立复现。这些研究将确定该方法的适用范围及其在实用药物化学流程中的价值。

OpenAI 的长期目标是让 AI 系统成为可靠的科学伙伴，帮助研究人员生成假设、设计实验、解读结果并决定下一步测试什么，同时保持对专家判断、可靠测量和强有力保障的立足。有机化学是一个尤其高杠杆的领域，因为小分子发现和制造的进步依赖于可靠地制造分子。科学家只能测试他们能制造的分子，而更好的合成可以扩展他们在医学、农业、电子、能源和材料科学中探索想法的范围。这个结果是那个更广泛方向的一个早期例子：一个前沿模型、专门智能体、自动化实验室和人类化学家合作，在研究循环中更快推进，产生科学界可以评估、复现并在此基础上发展的发现。

原文链接：OpenAI Blog
本文由前途科技编辑整理