LifeSciBench是一个由专家科学家设计的新基准,包含750个任务、1062个附属资料,覆盖七种工作流程和生物学领域。它评估AI系统能否处理真实研究中的复杂性,如解读不完整证据、设计实验等。初步测试显示,前沿模型在科学沟通和转化方面有进步,但在处理附图、设计任务上仍显不足。
引言
AI系统在科研任务上的能力日益增强,但它们在生命科学领域的实用性取决于能否应对真实研究的复杂性。现实中的研究工作很少是简单的事实回顾或清晰的预测问题:研究人员需要解读不完整证据、调和矛盾结果、设计困难实验、排查分析、评估转化风险,并在不确定中决定下一步行动。
现有基准未能完全捕捉这些能力。许多生命科学评估局限于狭窄领域或孤立技能,问题格式结构化且有明确参考答案。虽有价值,但往往无法真正评估模型在更广泛的研究层面上的贡献。
LifeSciBench旨在弥补这一差距。每个任务都基于具有博士级训练和生物技术/制药行业经验的执业科学家的判断。该基准包含750个专家撰写的任务,覆盖七种工作流程和七个生物学领域,共有1062个任务附件、173位科学家贡献者、19020条评分标准和453位专家审阅者。
评估内容
LifeSciBench衡量AI系统能否支持真实的生命科学研究任务,而不仅仅是回答生物学问题。基准分类法通过对执业科学家的调查,将最常见的应用研究工作流程归纳为七类:证据处理、分析、设计与优化、科学推理、验证与操作、转化、科学沟通。
每个任务结构类似于科学家向知识渊博的合作者提出的请求:科学提示、相关背景或附件、自由回答。专家撰写的评分标准评估模型能否以科学家期望的正确细节、论证、注意事项和格式产出正确答案。
数据集构建
LifeSciBench同时评估科学推理和实际科研所需的模糊技能。任务要求模型处理真实研究问题:解读证据、做出基于领域的判断、传达对专家审阅者有用的结论。许多任务还要求模型处理不确定性,并基于支持性数据文件进行推理,而非仅依赖提示文本。
基准设计反映了生命科学工作的复杂性。79%的任务需要多个推理或决策步骤,平均每任务4步。LifeSciBench包含1062个附件,涵盖图表、PDF、表格、序列文件、结构/化学文件及网络引用。超过一半的任务(53%)要求模型从至少一个附件中解读或综合信息。
任务由173位跨学科的专家科学家创建,每位持有博士级学位且具生物技术或制药行业经验。任务可经多次修订直至被接受,平均接受的任务经过6次自主自动审查循环和至少2轮专家评审。审查基于可验证的正确答案或强专家共识,相关领域审阅者一致性至少90%。
评分与标准分解
LifeSciBench任务使用详细的任务特定评分标准,将预期回答分解为具体的科学主张、计算、决策、论证等。基准中专家制定的标准共19,020条,每任务平均25条,以评估科学正确性和研究决策实用性。
这种设计反映了科研工作的实际评估方式:许多生命科学任务无法仅通过检查最终答案来评分。一个回答可能得出正确的高级结论,但若忽略关键分析限制或未主动提出高度相关的生物学细微差别,仍可能被视为不完整。反之,部分回答可能包含高质量推理,即使未完全解决任务。
细粒度评分标准捕捉了这种细微差别。LifeSciBench不仅评估最终答案准确性,还评估模型是否以科学有效且操作有用的方式得出结论。
一个示例回答展示了对微肌营养不良蛋白表达作为替代终点的监管评估,指出了测定特异性不足、定量标准无效、回复性肌纤维干扰、缺乏随机对照、年龄窗口混淆、耐久性不确定及安全性/普适性问题。
验证
LifeSciBench通过独立专家审查验证。453位未参与任务撰写的审阅者中,97%持有博士学位,平均12年领域经验,14篇同行评审论文;88%至少获得过一项奖项或奖学金。
审阅者按任务是否反映真实研究工作、适当测试科学推理和专业知识、基于证据或专家共识、以及评估模型性能的总体有用性进行评分。每个类别的一致性均超过96%。
结果
我们报告两个互补指标:通过率(任务级成功阈值70%)和得分(平均评分奖励,对未完全解决的任务给予部分分数)。
模型性能因任务类型、工作流程和回答格式而异。
前沿模型的早期优势
LifeSciBench显示,前沿模型在涉及科学综合、沟通和结构化解读的任务上相对最强。尽管绝对通过率仍然不高,但GPT-Rosalind相比GPT-5.5有显著进步,整体确切通过率从25.7%提升至36.1%。
最强进步方向出现在科学沟通和转化类别。例如,科学沟通通过率从GPT-5.5的56.3%提升至GPT-Rosalind的71.1%(该类别任务数量少,需谨慎解读),表明前沿模型在组织证据和产生有说服力的专家解释方面进步迅速。转化(药物开发的“从实验室到临床”过程)也表现出类似模式,从36.8%跃升至57.7%。
评分标准级结果也指向同一方向。在需要专家有用或可操作输出的任务上,GPT-Rosalind得分为44.7%,而GPT-5.5为29.1%。在需要处理不确定性和注意事项的任务上,得分分别为44.8%和29.3%。这表明模型在证据边界清晰、需要结构化科学判断的任务上最为有用。
当前短板
在依赖附件、设计密集和操作受限的科学工作上,性能仍然较弱。设计、优化与预测仍是最困难的工作流程之一,GPT-Rosalind通过率30.7%;分析同样困难,为30.3%。
附件使用是一个明显短板。虽然GPT-Rosalind在附件重场景下优于GPT-5.5,但其通过率从纯文本任务的45.1%降至有附件或URL任务的28.1%。模型在从复杂图表或大型序列文件中提取信息并整合到最终答案方面存在困难。
回答格式也很重要。需要确切序列、结构或构建级别输出的任务通过率较低:GPT-Rosalind在数值任务上仅14.8%,在序列或结构输出上24.0%。构建生成任务也脆弱,GPT-Rosalind为27.3%,相较GPT-5.5改进甚微。这些失败在科学上有意义,因为许多生命科学工作流程需要足够精确可直接使用的输出,如CRISPR/HDR供体设计或siRNA设计。
模型常常只完成部分工作而未完全解决问题。约14%的任务中,模型获得了可观的评分奖励但未达到确切通过阈值。对于GPT-Rosalind,109个任务通过率低于20%,但评分奖励至少50%。这意味着模型可能识别出相关证据或产生合理的部分答案,但因遗漏关键约束、使用错误证据、计算不完整或未将推理连接到科学上有用的最终决策而失败。
局限性与未来方向
LifeSciBench是衡量AI系统对生命科学研究实用性的一个步骤,但不能替代在真实研究环境中研究模型。该基准专注于反映行业工作流程的独立任务,当前范围未涵盖许多科学专业和任务类型。真实研究是迭代的:科学家收集新证据、修正假设、设计后续实验、根据结果调整计划。
因此,LifeSciBench上的出色表现应被解读为现实任务级能力的证据,而非下游研究影响的直接度量。下一步是将基准性能与实时研究工作流程中的部署研究联系起来。衡量AI系统是否能加速发现或改善研发成果,需要在真实研究环境中、更长时间跨度内、经过多轮推理、反馈和实验追踪中进行研究。
免费获取企业 AI 成熟度诊断报告,发现转型机会