可信第三方AI评估指南：OpenAI的经验与建议

独立、可信的第三方评估在强化AI安全生态中扮演着关键角色。这些评估针对前沿模型，为关键能力与安全防护措施提供额外证据。在这篇文章中，我们分享迄今为止学到的经验，并推荐设计评估的方法，希望能为正在形成的行业标准提供参考。

早期，许多评估把模型当成聊天机器人来处理：评估向模型提问，模型回答，然后评估者判断输出质量。如今的前沿模型能力远不止于此：它们可以使用工具、跨多步骤追踪信息、在更大的工作流中行动。这意味着模型的表现不仅取决于模型本身，还取决于任务执行的环境以及支撑其行动的设置。这个外围设置——我们称之为“harness”（环境配置）——可以改变系统性能的关键方面，包括如何使用工具、追踪信息或从错误中恢复。

这改变了评估的进行方式，也改变了读者在评估报告中应该关注什么。我们认为，最有用的报告除了结果本身之外，还应明确描述两点：第一，评估设置旨在测试什么claim（主张）；第二，分享评估结果有效的可用证据。

评估测试的claim通常分为三类[1]：

能力激发：模型是否有可能展现出被评估的能力？
安全防护性能：测试的安全措施对特定行为或攻击的鲁棒性如何？
比较：在同等条件下，不同模型表现如何？

评估报告还需要解释评估者如何检查可能影响结果有效性的因素，包括：

奖励黑客：利用任务或评分器中的捷径，使系统在不展示目标行为的情况下获得分数。
拒绝回答：以掩盖被测试行为的方式拒绝回答。
污染：由于评估任务、答案或近似变体出现在训练数据中，或在评估期间通过浏览等方式可被发现，导致性能虚高。
问题损坏：因任务无效导致性能偏低。原因包括不公正的评分（如正确答案需要未说明的实现细节）和无法解决的环境（如缺少关键文件或工具不可靠）。
沙袋效应：系统意识到正在被评估时，故意表现不佳。

为评估选择合适的Harness至关重要

我们发现，对于需要长轨迹行动的系统，harness的作用尤其重要。当模型可以使用工具、维持状态并在多步骤中从错误中恢复时，harness可以改变观测到的性能水平，甚至决定被评估的能力是否会在评估中出现。例如，一个保留状态并重试失败操作的harness，可能让模型完成一个在简单harness中永远无法完成的多步骤任务。

下表列出了评估者可能希望做出的三类claim及其对应的harness选择。

评估试图支持的claim	合适的harness选择	需要报告的证据
强激发下的能力：当设置旨在挖掘模型最强的可信表现时，系统A能完成X类任务。	使用系统最强的可信激发设置，包括harness、工具、脚手架以及有能力的用户会合理使用的预算。	Harness和工具设置、激发指导、预算/努力量、token/成本/时间，以及为什么该设置是所声称能力的可信代理。如果在不同优化设置下比较系统，应标明为系统到系统或强激发的比较。
受控比较：在共享评估设置下，系统A优于系统B。	保持任务、评分和预算固定。使用共享的harness/工具设置或预先选定的一组标准化harness，为比较的系统提供合理的最大激发。	共享的任务集、工具、评分方法、harness、预算、token效率/成本，以及已知限制。对于编码智能体评估，开源harness如Codex CLI可提供固定的智能体循环和工具接口。理想情况下，最大激发的方法是为每个任务和系统优化定制harness，但目前实践中不可行。
受激激发下的安全防护鲁棒性：系统A的安全措施对相关模型行为或受激攻击足够强大。	使用设计来在相关攻击者模型下激发最强可信攻击的安全测试设置。	评估者如何描述相关模型行为、测试的安全配置、激发策略、用于执行的harness，以及允许的预算或努力。

能力声明只有在背后的激发足够强时才可信：评估者需要选择最适合任务和待测能力的harness。 标准化harness适合在相同条件下比较系统，但若缺少帮助模型执行任务的特定harness功能，则可能低估能力。例如，GPT-5.5在OpenAI的网络安全评估中的表现展示了harness选择如何实质性地改变长时多步骤工具使用任务的测量能力：当harness使用“压缩”（compaction）来在交互变长时保留任务相关上下文时，模型表现更好。这表明，对于某些模型，省略压缩的harness会低估性能。

更高的成功率并不总是更好的。其他已发布评估[2]也显示harness和预算选择会改变评估结果。增加测试时计算可显著改变评估激发的能力，尤其是在成功容易验证的领域，如许多网络任务。在英国AISI的网络安全评估中，将预算从1000万token增加到1亿token，性能提升了59%，且仍在最高预算下继续提升。详细说明这一点使评估更可解释：它向读者展示了结果如何依赖于所测试的激发设置。当性能随额外预算继续提升时，分数应被描述为在该harness和预算下的性能，而非能力上限。能力通常依赖于资源，而非可以一劳永逸地测量的固定量。当可以在重复尝试中衡量成功时，报告还应考虑每次成功解决的平均成本，而不仅仅是固定token预算下的成功率。这有助于理解严重性：如果重复尝试的成本在相关威胁模型内，即使成功率低也可能具有实际意义。对于能力声明，可避免的低激发是测量失败：如果harness或预算阻止系统展示它本来能产生的行为，则分数并未衡量所声称的能力。当评估者将激发推至可行极限而性能仍在提升时，报告应明确说明，并明确结果仅为下限估计。

安全测试可能低估攻击能否成功以及严重程度，如果未考虑攻击者可用的资源（包括定制harness）。 在英国AISI对GPT-5.5的评估中，专家红队发现了一个通用越狱，在OpenAI提供的恶意查询中（包括多轮智能体设置）触发了违规网络内容。他们使用Codex创建了一个定制harness来增强模型的攻击性能：它将可重用的安全绕过模式嵌入交互中，在跨轮和跨块中保留该模式，并应用于所有恶意网络查询。安全测试应与攻击者匹配。如果claim是关于对专家误用的鲁棒性，则测试应在定义预算下评估最强可信的端到端攻击策略，包括保留和重用该策略所需的任何harness。否则，结果可能失准：可能只支持关于抵抗简单提示的较窄claim，可能忽略攻击的严重性和成功率（一旦激发方法被操作化），也可能因预算过多而高估问题发生概率或严重性。

标准化harness比较有其时机和场合，但评估者应明确说明为什么使用一致的一组harness是合适的，以及它支持什么claim。 METR的时间跨度评估是一个更广泛、恰当的固定评估设置的例子：它旨在产生跨评估系统的可比结果。METR定义了一个共同结果——AI智能体在给定可靠性水平下被预测能成功的人类任务典型时长。它在一个批次内共享任务套件、评分方法、拟合方法以及一小套可重用的脚手架（如Triframe和ReAct）。当METR扩展任务套件并将评估基础设施从Vivaria迁移到Inspect时，它报告了变更并重新评估了模型。这正是标准化评估设置的价值：让读者相信分数差异真正反映了系统之间的差异，而非测量设置的变化。

我们建议第三方评估报告明确说明评估设置旨在支持哪种claim；描述测试内容与更广泛claim之间的接近程度；描述塑造结果的harness选择；详细说明这些选择在评估之间的变化；并包括支持证据，展示结果如何产生以及它推广到claim的程度。

通过检查已知风险来评估有效性

随着模型能力增强，评估分数更容易被误读。相对于真实能力，评估分数可能因模型识别出被评估而策略性表现不佳而被人为降低；也可能因模型利用任务、提示、评分器或harness中的捷径而膨胀。污染（模型已知道答案或无需解决任务即可找到答案）或“损坏”问题（模棱两可、评分错误、无法解决或易受意外捷径影响）也会扭曲结果。因此评估报告应将标题分数与这些风险的讨论配对，以便读者判断分数是否反映预期行为。

Harness、预算、工具、评分规则、监控器和审查流程都会影响智能体是解决预期任务、回避它、记忆它还是找到绕过路径。可信赖的报告会公开这些检查：评估者应在每次评估运行时审查样本，寻找这些行为。

奖励黑客意味着以不反映预期能力的方式获得高分。问题在于系统通过利用任务、评分器、提示或harness来获取分数，而非完成评估本应测量的工作。METR对GPT-5.4的评估说明了为什么这很重要：尽管模型任务成功率在初步估算中对应约13小时的时间跨度，但人工审查发现部分成功来自奖励黑客。修正结果后，估计值降至约6小时。评估者应评估是否需要此类调整，并在需要时清晰报告：当读者能看到哪些表面成功被否定、为什么被否定以及结果在多大程度上依赖这一判断时，能力估计更有用。

AI模型性能随时间变化的图表，带有趋势线和置信区间

拒绝回答也会导致模型在能力评估中表现偏低。模型可能因拒绝完成任务而表现低于其实际能力。报告应说明拒绝是否出现在评估结果中，如果是，有多少样本因此受损。

污染对公开或重复使用的基准影响最大。如果任务、答案或近似变体出现在训练数据中，或智能体可通过浏览找到，则性能可能反映记忆或检索而非模型能力。评估者应尽可能使用私有或新构建的任务，并测试模型在解决问题前是否复制了任务特定细节。

问题损坏包括任务意外无法解决等情况。损坏问题相当常见，应被视为标准有效性风险。它们包括错误的真实答案、模棱两可的提示、缺失文件、不稳定的服务、不公平的评分标准，以及暴露捷径的环境（如隐藏的答案文件或包含真实补丁的仓库历史）。

沙袋效应指模型或系统策略性地表现不佳，因为强力表现会与某些目标冲突。Apollo对GPT-5.5的评估测试了这一点：他们创建了一个上下文，让模型理解高分可能触发卸载或阻止部署。GPT-5.5仍然正确回答，表明几乎没有行为上的策略性表现不佳证据[3]。但他们对推理轨迹的审查增加了重要背景：Apollo发现，在沙袋条件下的样本中，有52%显示出中等或更高的对齐评估意识迹象，而反事实条件下为0%。这一证据使结果解释更复杂，但最终给了读者更多信号：读者既能看到令人安心的行为结果，也能看到谨慎解读的理由。

我们如何支持更强的评估

强力的主张需要正确的harness来激发行为，以及有效性检查来证明结果的可靠性。我们认为harness和有效性检查是评估结果的一部分，这塑造了我们实际支持第三方评估的方式：

我们正在向评估者分享具体的最大激发指导。
我们要求能力评估者使用Codex作为OpenAI模型的共同基线：测试至少应通过用户可能依赖的相同智能体界面运行基线，而不仅仅是通过精简的模型接口。
在需要评估欺骗、沙袋或评估意识时，我们也会提供推理轨迹和其他中间产物。METR和Apollo自GPT-5以来就在OpenAI评估中使用了这一访问权限。
最后，我们优先研究更深入地理解harness选择何时以及如何实质性地改变结果，包括上下文管理、工具访问、重试行为、评分和资源预算。

这对评估标准和未来研究方向意味着什么

这些建议不仅旨在改进个别评估报告，也为形成中的国家和国际前沿AI评估与报告标准提供参考。未来，第三方评估标准应提供足够细节，让决策者了解评估支持的具体claim、测试了什么系统、结果是如何激发的，以及评估者如何检查其有效性。对于在前沿系统上测试智能体能力至关重要的任务，细节应包括（在安全和保密考虑允许的前提下）：

claim：评估是比较系统、估计能力上限还是测试安全防护。
评估内容：关于任务或任务分布的足够细节，让读者理解评估真正测试的技能、行为或失败模式。
测试的系统：模型、推理设置、工具访问、harness和安全措施。
预算：轮次、token、尝试/重试次数、运行时间、推理成本，以及适用时每次成功解决的预期成本。
激发方法：用于引出结果的harness选择，以及测试内容与更广泛claim之间的接近程度。
有效性检查：评估者如何寻找奖励黑客、评估意识、污染、拒绝、沙袋等其他可能破坏结果的行为，包括确认案例如何影响评分或解释。

忽略harness选择或有效性检查的标准可能低估系统的能力或高估安全声明的可信度。构建强大的harness和激发方法仍然是一个开放的研究领域，应成为进一步研究和投入的重点。

原文链接：OpenAI Blog
本文由前途科技编辑整理

评估测试的claim通常分为三类[1]：

能力激发：模型是否有可能展现出被评估的能力？
安全防护性能：测试的安全措施对特定行为或攻击的鲁棒性如何？
比较：在同等条件下，不同模型表现如何？

评估报告还需要解释评估者如何检查可能影响结果有效性的因素，包括：

奖励黑客：利用任务或评分器中的捷径，使系统在不展示目标行为的情况下获得分数。
拒绝回答：以掩盖被测试行为的方式拒绝回答。
污染：由于评估任务、答案或近似变体出现在训练数据中，或在评估期间通过浏览等方式可被发现，导致性能虚高。
问题损坏：因任务无效导致性能偏低。原因包括不公正的评分（如正确答案需要未说明的实现细节）和无法解决的环境（如缺少关键文件或工具不可靠）。
沙袋效应：系统意识到正在被评估时，故意表现不佳。

为评估选择合适的Harness至关重要

下表列出了评估者可能希望做出的三类claim及其对应的harness选择。

评估试图支持的claim	合适的harness选择	需要报告的证据
强激发下的能力：当设置旨在挖掘模型最强的可信表现时，系统A能完成X类任务。	使用系统最强的可信激发设置，包括harness、工具、脚手架以及有能力的用户会合理使用的预算。	Harness和工具设置、激发指导、预算/努力量、token/成本/时间，以及为什么该设置是所声称能力的可信代理。如果在不同优化设置下比较系统，应标明为系统到系统或强激发的比较。
受控比较：在共享评估设置下，系统A优于系统B。	保持任务、评分和预算固定。使用共享的harness/工具设置或预先选定的一组标准化harness，为比较的系统提供合理的最大激发。	共享的任务集、工具、评分方法、harness、预算、token效率/成本，以及已知限制。对于编码智能体评估，开源harness如Codex CLI可提供固定的智能体循环和工具接口。理想情况下，最大激发的方法是为每个任务和系统优化定制harness，但目前实践中不可行。
受激激发下的安全防护鲁棒性：系统A的安全措施对相关模型行为或受激攻击足够强大。	使用设计来在相关攻击者模型下激发最强可信攻击的安全测试设置。	评估者如何描述相关模型行为、测试的安全配置、激发策略、用于执行的harness，以及允许的预算或努力。

通过检查已知风险来评估有效性

AI模型性能随时间变化的图表，带有趋势线和置信区间

我们如何支持更强的评估

我们正在向评估者分享具体的最大激发指导。
我们要求能力评估者使用Codex作为OpenAI模型的共同基线：测试至少应通过用户可能依赖的相同智能体界面运行基线，而不仅仅是通过精简的模型接口。
在需要评估欺骗、沙袋或评估意识时，我们也会提供推理轨迹和其他中间产物。METR和Apollo自GPT-5以来就在OpenAI评估中使用了这一访问权限。
最后，我们优先研究更深入地理解harness选择何时以及如何实质性地改变结果，包括上下文管理、工具访问、重试行为、评分和资源预算。

这对评估标准和未来研究方向意味着什么

claim：评估是比较系统、估计能力上限还是测试安全防护。
评估内容：关于任务或任务分布的足够细节，让读者理解评估真正测试的技能、行为或失败模式。
测试的系统：模型、推理设置、工具访问、harness和安全措施。
预算：轮次、token、尝试/重试次数、运行时间、推理成本，以及适用时每次成功解决的预期成本。
激发方法：用于引出结果的harness选择，以及测试内容与更广泛claim之间的接近程度。
有效性检查：评估者如何寻找奖励黑客、评估意识、污染、拒绝、沙袋等其他可能破坏结果的行为，包括确认案例如何影响评分或解释。

原文链接：OpenAI Blog
本文由前途科技编辑整理

可信第三方AI评估指南：OpenAI的经验与建议

为评估选择合适的Harness至关重要

通过检查已知风险来评估有效性

我们如何支持更强的评估

这对评估标准和未来研究方向意味着什么

想了解 AI 如何助力您的企业？

24小时热榜

美国陆军：禁用中国设备或拖累军事数据中心

AI产品经理指标手册：五层、四实践、一清单

Neuralink植入装置恢复瘫痪患者语言与艺术能力

画面党该醒醒了，用户一直在调音量

流式传输：让AI响应快到飞起

SkillOpt：从提示工程到技能训练

分层架构正在瓦解：自治领域能力崛起

轨道清洁战：近地轨道上万亿美金的博弈

免费获取 AI 落地指南

可信第三方AI评估指南：OpenAI的经验与建议

为评估选择合适的Harness至关重要

通过检查已知风险来评估有效性

我们如何支持更强的评估

这对评估标准和未来研究方向意味着什么

想了解 AI 如何助力您的企业？

24小时热榜

美国陆军：禁用中国设备或拖累军事数据中心

AI产品经理指标手册：五层、四实践、一清单

Neuralink植入装置恢复瘫痪患者语言与艺术能力

画面党该醒醒了，用户一直在调音量

流式传输：让AI响应快到飞起

SkillOpt：从提示工程到技能训练

分层架构正在瓦解：自治领域能力崛起

轨道清洁战：近地轨道上万亿美金的博弈

免费获取 AI 落地指南