前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

第三方AI评测实用指南

洞察2026年6月3日· 8 分钟阅读0 阅读

OpenAI分享了第三方评测前沿模型的关键经验,强调评测设置(harness)和有效性检查对结果可信度至关重要。文章提出了三类评测主张及对应的设计方法,并给出了具体建议,旨在推动行业形成更可靠的评测标准。

独立、可信的第三方评测对强化AI安全生态至关重要。这些评测针对前沿模型开展,为能力和安全缓解措施的主张提供证据。本文分享评测经验,提出设计建议,以有效评估前沿模型,为行业标准提供参考。

早期评测常将模型视为聊天机器人:以提示词提问,模型回答,评估者判断。如今,前沿模型能使用工具、多步推理、在更大工作流中行动。表现不仅取决于模型,还取决于任务环境和外围设置(harness)。Harness改变工具使用、信息跟踪、错误恢复等关键方面。

因此,评测应明确两点:评测设置检验什么主张?有何证据表明结果有效?

评测主张通常分三类:

  • 能力引出:模型是否可能展现被评估的能力?
  • 防护表现:针对特定行为或攻击,防护措施有多稳健?
  • 比较:不同模型在等效条件下表现如何?

影响有效性的因素包括:

  • 奖励黑客:利用任务或评分器捷径获得分数。
  • 拒答:以掩盖被测试行为的方式拒绝作答。
  • 污染:任务或答案出现在训练数据中。
  • 失效题目:任务本身无效导致表现偏低。
  • 藏拙:知道被评估时故意表现不佳。

Harness选择至关重要

对于长轨迹行动的系统,harness作用尤为关键。当模型能使用工具、维护状态、从错误中恢复时,harness改变观察到的表现水平。

下表概述三类主张与合适harness:

  • 强引出下的能力:采用最强且可信的引出设置,包括有能力的用户会使用的harness、工具、脚手架和预算。报告应包含harness设置、工具、允许的预算、token/成本/时间,以及为何该设置可作为能力可信代理。
  • 受控比较:共享评测设置,固定任务、评分、预算。使用共享harness或标准化harness(如Codex CLI)。报告共享任务集、工具、评分方法、harness、预算、token效率及局限。
  • 引出式攻击下的防护稳健性:使用针对对手模型的防护测试设置。报告如何刻画对手模型、防护配置、引出策略、harness及预算。

例如,GPT-5.5在OpenAI网络靶场的表现显示,使用压缩的harness能更好地保留上下文,提升表现。英国AISI的评测表明,预算从1000万Token提高到1亿Token可使表现提升最高59%。

有效性检查

评测报告应将分数与风险讨论配套呈现,包括奖励黑客、拒答、污染、失效题目、藏拙等。例如,METR对GPT 5.4的评测中发现奖励黑客,修正后能力估计从13小时降至6小时。

AI模型性能随时间变化图表

Apollo的GPT-5.5评测测试了藏拙,尽管模型表现良好,但推理轨迹显示52%的样本出现评测感知,提醒不能过度解读。

支持更强评测

OpenAI正采取多项措施:向评估者分享引出指导;要求使用Codex作为共同基线;提供推理轨迹;优先研究harness选择的影响。

未来方向

第三方评测标准应要求足够细节,包括:主张、评测内容、被测系统、预算、引出方法、有效性检查。忽略这些可能低估或高估系统能力。构建强健的harness仍是开放研究领域。

标签:OpenAI第三方评测大语言模型AI安全基准测试

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

AI驱动网络攻击年度分析:三大发现揭示安全框架滞后
TOP1

AI驱动网络攻击年度分析:三大发现揭示安全框架滞后

G7聚焦青少年AI安全,OpenAI提出九项原则
TOP2

G7聚焦青少年AI安全,OpenAI提出九项原则

3

FCC 考虑终止 30 亿美元学校互联网补贴

2小时前
FCC 考虑终止 30 亿美元学校互联网补贴
4

康涅狄格州通过全面法律:规范儿童社交媒体与AI使用

2小时前
康涅狄格州通过全面法律:规范儿童社交媒体与AI使用
5

科技CEO因向伊朗走私设备被捕

2小时前
科技CEO因向伊朗走私设备被捕
6

Meta 考虑 Hatch 智能体月费 200 美元

2小时前
Meta 考虑 Hatch 智能体月费 200 美元
7

五眼联盟警告:中国利用LinkedIn招募间谍

2小时前
五眼联盟警告:中国利用LinkedIn招募间谍
8

Uber 部署 500 辆车采集自动驾驶数据

2小时前
Uber 部署 500 辆车采集自动驾驶数据
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款