第三方AI评测实用指南

洞察2026年6月3日· 8 分钟阅读8 阅读

OpenAI分享了第三方评测前沿模型的关键经验，强调评测设置（harness）和有效性检查对结果可信度至关重要。文章提出了三类评测主张及对应的设计方法，并给出了具体建议，旨在推动行业形成更可靠的评测标准。

独立、可信的第三方评测对强化AI安全生态至关重要。这些评测针对前沿模型开展，为能力和安全缓解措施的主张提供证据。本文分享评测经验，提出设计建议，以有效评估前沿模型，为行业标准提供参考。

早期评测常将模型视为聊天机器人：以提示词提问，模型回答，评估者判断。如今，前沿模型能使用工具、多步推理、在更大工作流中行动。表现不仅取决于模型，还取决于任务环境和外围设置（harness）。Harness改变工具使用、信息跟踪、错误恢复等关键方面。

因此，评测应明确两点：评测设置检验什么主张？有何证据表明结果有效？

评测主张通常分三类：

影响有效性的因素包括：

Harness选择至关重要

对于长轨迹行动的系统，harness作用尤为关键。当模型能使用工具、维护状态、从错误中恢复时，harness改变观察到的表现水平。

下表概述三类主张与合适harness：

强引出下的能力：采用最强且可信的引出设置，包括有能力的用户会使用的harness、工具、脚手架和预算。报告应包含harness设置、工具、允许的预算、token/成本/时间，以及为何该设置可作为能力可信代理。
受控比较：共享评测设置，固定任务、评分、预算。使用共享harness或标准化harness（如Codex CLI）。报告共享任务集、工具、评分方法、harness、预算、token效率及局限。
引出式攻击下的防护稳健性：使用针对对手模型的防护测试设置。报告如何刻画对手模型、防护配置、引出策略、harness及预算。

例如，GPT-5.5在OpenAI网络靶场的表现显示，使用压缩的harness能更好地保留上下文，提升表现。英国AISI的评测表明，预算从1000万Token提高到1亿Token可使表现提升最高59%。