OpenAI推出GeneBench-Pro,一个研究级基准测试,用于衡量AI模型在计算生物学中处理判断密集型分析的能力。该基准涵盖基因组学、定量生物学等129道难题,旨在评估模型处理模糊性、修正假设等高阶科学推理能力。当前最强模型GPT-5.6 Sol仅通过28.7%,表明AI在抽象科研判断上仍有巨大提升空间。
科学数据很少附带使用说明。研究人员必须判断一个模式是生物信号还是噪声,数据能否支撑所问的问题,以及每个结果该如何改变下一步行动。AI智能体越来越能执行复杂分析,但真实的科学研究不仅依赖事实回忆或预设流程,更取决于这些高阶判断。
OpenAI今日发布GeneBench-Pro——一个挑战性的研究级基准测试,用于检验模型是否具备真实计算生物学所需的判断密集型分析能力。它扩展自GeneBench,覆盖基因组学、定量生物学和转化医学中更困难、更现实的任务,捕捉了计算生物学研究中复杂、迭代和模糊的本质。
迄今为止,很少有令人信服的评估能衡量那些让实际计算研究变得困难的系统级判断。这些判断包括处理模糊性、修正假设、选择正确的分析路径,以及知道何时结果已可用于决策。由于这些技能难以形式化,所以也难以严格评估,即便它们的弱点日益限制着AI的整体表现。
GeneBench-Pro正是为精确测量这些高阶能力而设计。在该基准中,我们将“研究品味”定义为塑造分析的一系列判断链条:数据能支撑哪些问题,早期诊断应如何改变模型或估计量,以及何时需要修正初始计划。每个GeneBench-Pro问题都提供一套真实而混乱的数据集、简短的实验背景,以及一个与下游决策相关的目标估计量。要正确回答,模型必须探索数据、选择合适的分析方法、进行迭代实验并给出最终答案。
在生物学中,数据生成成本(如基因组测序)已大幅下降,一些研究人员认为瓶颈已不再是样本收集,而是下游计算与分析。GeneBench-Pro旨在评估针对这一瓶颈的进展,包含129道问题,涵盖广泛的计算生物学场景和方法。
点击上方圆点可了解一个基准问题。该图谱展示了GeneBench-Pro的广度。访问案例研究页面可详细探究10个代表性问题。
GeneBench-Pro还设计避免了常见的基准失败。许多长周期生物学基准围绕杂乱的历史数据集构建多步骤问题,可能没有单一的正确分析路径。一个智能体可能选择某个合理阈值,而另一个选择同样合理的不同选项,这更多反映了基准创建者的任意选择而非模型性能的根本差异。相反情况也可能发生:如果问题对数值不敏感,智能体可能在分析中犯根本性错误仍能得到及格结果。
为避免这些失败模式,每个GeneBench-Pro问题都是合成构建的:我们掌握完整因果结构并直接模拟数据生成过程。这使我们能够调整每个问题的复杂度,确保合理的主观分析选择差异仍能产生可接受的数值结果,并通过消融实验验证看似合理但错误的分析会失败。然后我们通过详细追踪分析审计问题草稿,检查信息泄露和意外求解路径。这使我们有信心认为,获得正确答案取决于选择正确的分析路径,而非利用捷径或匹配任意作者偏好。
我们将129道问题中的82道交给了外部领域专家,包括研究生、博士后、产业科学家和教授。评审者评估了每个问题的真实性、目标答案的可辨识性以及方法和估计量的适当性。反馈用于改进问题。
每个GeneBench-Pro问题都是一个独立的科学分析。智能体访问隔离的工作空间,其中包含简短提示、数据文件和标准生物信息学工具(如Python、科学计算库及PLINK 2.0等基础基因组学软件包,但问题不需要领域特定工具)。
由于我们控制完整的数据生成过程,可以根据已知目标确定性评分,避免了标准评分中的模型选择可变性和啰嗦效应。每个问题还附带丰富的元数据,包括预期分析结构、数据文件、详细的多页案例研究和专家评审结果。我们在Hugging Face上完全开源了10个代表性GeneBench-Pro问题,并提供交互式网页界面供浏览。此外,我们将在近期向Artificial Analysis提供50道问题的子集,用于独立的第三方基准测试。
我们最强的模型GPT-5.6 Sol在最高推理水平上取得了28.7%的通过率(开启Pro模式为31.5%)。相比最初构建GeneBench时,当时的最前沿模型GPT-5得分低于5%。该基准上的进展表明前沿模型在系统级科学推理等较隐性的能力上正快速提升。按当前速度,该基准可能在年底前达到饱和。
结果还展示了扩展测试时计算的影响。在最低推理水平下,GPT-5.6 Sol仅有个位数的通过率;在最高水平下,GPT-5.6 Sol解决的问题数量是GPT-5.2的近六倍,而使用的token数仅为后者约三分之二。
跨模型家族的比较表明,GPT模型在定量不确定性下的高级科学推理方面属于最强系统之一。GPT-5.6、GPT-5.5与领先开源模型(如GLM 5.2)之间的性能差距,远超从编程基准外推的预期,表明开源模型更擅长编程而非更广泛的推理能力。
在开发过程中,我们使用前沿GPT模型来评估和强化问题。因此,我们曾怀疑GeneBench-Pro可能对其他模型家族存在偏向。然而,竞品模型最多只能匹配对应GPT模型发布时的性能,且往往远低于预期。
考虑到GeneBench-Pro问题的难度,这些评估结果(GPT-5.6 Sol Pro最高31.5%)令人瞩目。在调查中,评审者估计一个典型问题需要人类专家约20-40小时完成。按保守的每小时200美元计算,单个问题的人力成本高达数千美元。当前AI智能体尚不可靠到替代人类专家,但成本差距巨大——推理成本仅为每个问题几美元。这意味着以当前能力进行部分自动化也能创造可观的经济和科学价值。
然而,前沿模型仍无法解决超过三分之一的此类问题,表明还有巨大改进空间。模型能在困难问题上取得部分进展,但难以闭合推理循环。这种失败模式与人类专家和新手的对比类似:专家利用经验构建问题并调整方法,而新手虽能进行观察却难以将其融入问题的更广阔背景。
要实现近乎完美的表现,需要既能可靠测量进展又能识别模型失败点的评估。像GeneBench-Pro这样的基准有助于将模糊的能力缺陷转化为可诊断和改进的问题。
如果智能体能可靠自动化这类分析,将极大加速科学发现。人类遗传学证据已是靶点优先排序和转化研究的关键,因为具有遗传支持的机制更有可能带来获批疗法。与此同时,测序成本急剧下降,生物银行规模的数据集以空前广度连接着分子、表型和健康记录信息。瓶颈正从数据生成转向将信息转化为可行动洞察。能够持续执行目前由人类专家团队完成的分析的模型,可通过加速假设筛选、靶点跟进以及数据生成与决策之间的迭代循环,彻底改变工业研究。
GeneBench-Pro是评估经验丰富科学家所具备的抽象判断技能的初步尝试。这些技能使他们能直觉识别最有前景的初步分析,在数据与初始假设矛盾时迭代修正思路,并得出支撑下游临床、学术或商业决策的结论。我们预计,随着模型能力提升,探测模型在更高抽象层次上能力的基准将变得愈发有用,超越仅测试书本知识或执行常规分析的能力。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断