OpenAI 发布 LifeSciBench 基准测试

AI 智能体在科学任务上的能力越来越强，但它们对生命科学研究者的实际价值取决于如何处理真实研究的复杂性。真实研究很少是单一的事实回忆问题或清晰的预测问题：研究者需要解读不完整的证据、协调矛盾的结果、设计困难的实验、排查分析方法、评估转化风险，并在不确定中决定下一步行动。

现有基准测试并不能完全捕获这些能力。许多生命科学评估聚焦于狭窄领域或孤立技能，问题形式结构化、参考答案清晰。虽然有价值，但它们往往无法真正检验模型在更广泛研究层面上的贡献能力。

OpenAI 设计 LifeSciBench 正是为了弥补这一差距。每一个任务都经由拥有博士训练水平、且在生物技术和制药领域有直接药物发现经验的实践生命科学家判断而构建。

LifeSciBench 包含 750 个专家编写的任务，涵盖 7 个工作流程和 7 个生物学领域。它评估 AI 系统能否支持真实的生命科学研究任务，而不仅仅是回答生物学问题。

测量什么

为了定义基准的分类学，研究团队调查了实践生命科学家在应用研究中最常使用的工作流程，并将其归纳为七个重复出现的类别：证据处理、分析、设计与优化、科学推理、验证与操作、转化以及科学交流。

每个任务的结构类似于科学家向知识渊博的合作者提出的请求：科学提示、相关背景或材料，以及自由回答。专家编写的评分标准评估模型能否为特定问题给出正确的答案，并具备科学家期望的细节、理由、注意事项和格式。

数据集构建

LifeSciBench 同时评估科学推理和实际科学应用所需的不太明确的实践技能。许多任务要求模型处理不确定性，并基于支持数据文件进行推理，而不仅仅依赖提示文本。

79% 的任务需要多个推理或决策步骤，平均每个任务 4 个步骤。基准包含 1062 个附件，涵盖图表、PDF、表格、序列文件、结构或化学文件以及网络参考。超过一半（53%）的任务要求模型解读或综合至少一个附件中的信息。

任务由 173 位来自不同生命科学学科的专家科学家创建，每位科学家都拥有博士水平训练和生物技术或制药行业经验。每个任务在验收前可经历任意多轮修订，平均经过 6 轮自定自动评审循环和至少两轮专家评审。评审基于可验证的正确答案或强有力的专家共识，同一领域专家的一致性至少达到 90%。

评分与评分标准分解

LifeSciBench 任务通过详细的、任务特定的评分标准进行评分，将预期回答分解为具体的科学声明、计算、决策、理由等。整个基准包含 19,020 条评分标准，平均每个任务 25 条，用于评估科学正确性和对研究决策的实用性。

这种设计反映了科学工作在实际中如何被评估：许多生命科学任务不能仅靠检查最终答案来评分。一个回答可能达到正确的高层结论，但如果忽略关键的分析局限性或未能主动提及重要的生物学细节，仍可能被认为不完整。

验证

LifeSciBench 通过独立专家评审进行验证。反馈来自 453 位未参与任务编写的评审员，其中 97% 拥有博士学位或同等学历，平均有 12 年领域经验和 14 篇同行评审论文；88% 至少获得过一次奖项或奖学金。评审员对每个任务在五个维度上打分，所有类别一致性均超过 96%。

结果

研究团队报告了两个互补指标：通过率（任务级成功阈值 70%）和得分（平均评分标准奖励，即使未完全解决任务也给予部分学分）。

前沿模型在涉及科学综合、交流以及结构化解读的任务上相对最强。绝对通过率仍然不高，但 GPT‑Rosalind 相比 GPT‑5.5 显示出有意义的进步，整体精确通过率从 25.7% 提升至 36.1%。在科学交流方面，通过率从 56.3% 跃升至 71.1%；转化（药物开发的“从实验室到临床”过程）从 36.8% 升至 57.7%。

然而，在涉及大量附件、设计任务和操作受限的科学工作上，性能仍然较弱。其中，设计与优化预测是通过率最低的工作流程之一（GPT‑Rosalind 为 30.7%）；分析同样困难（30.3%）。附件使用是一个明显的差距：GPT‑Rosalind 在纯文本任务上的通过率为 45.1%，但当涉及附件或 URL 时降至 28.1%。

模型还经常“半途而废”：在约 14% 的任务中，尽管未达到精确通过阈值，但获得了可观的评分标准学分。这意味模型可能识别出相关证据或给出合理的部分答案，但由于遗漏关键约束、使用错误证据、计算不完整或未将推理与科学上有用的最终决策连接而失败。