前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 研究资源
    • 案例研究
    • 报告
    • 工具推荐
    • 术语词典
  • 服务
  • 关于
联系我们

OpenAI 推出 EVMbench,测试 AI 在智能合约安全中的表现

技术2026年2月19日· 3 分钟阅读0 阅读

OpenAI 与 Paradigm 合作发布 EVMbench 基准测试,评估 AI 智能体检测、修复和利用智能合约漏洞的能力。该测试包含 120 个精选漏洞,在三种模式下评估 AI 表现,GPT-5.3-Codex 在攻击模式得分达 72.2%。同时,OpenAI 承诺投入 1000 万美元 API 额度支持网络防御。

OpenAI 推出了 EVMbench,这是一个与加密风险投资公司 Paradigm 合作开发的新基准测试系统,用于评估人工智能代理检测、修复和利用区块链智能合约漏洞的有效性。

该基准测试于周二发布,正值加密行业继续应对不断增加的安全损失之际。仅 2026 年 1 月,DeFi 黑客攻击就造成了约 8600 万美元的损失,智能合约漏洞仍然是主要的攻击途径。

介绍 EVMbench——一个衡量 AI 在智能合约安全方面表现的新基准

EVMbench 的工作原理

EVMbench 包含 120 个精选漏洞,这些漏洞源自 40 份专业智能合约审计报告,其中大部分来自 Code4rena 等公开代码审计竞赛。该基准测试还纳入了 Tempo(一个专为稳定币支付设计的 Layer-1 区块链)安全审计过程中的漏洞场景,将评估范围扩展到面向支付的智能合约代码。

该框架在三种能力模式下测试 AI 智能体:检测模式(detect),智能体审计合约并根据漏洞召回率评分;修复模式(patch),智能体修改存在漏洞的代码同时保持功能完整性;以及攻击模式(exploit),智能体在连接到本地以太坊链的沙盒环境中执行资金窃取攻击。

在测试中,OpenAI 的 GPT-5.3-Codex 在攻击模式下取得了 72.2% 的得分,相比大约六个月前 GPT-5 的 31.9% 得分有了大幅提升。然而,检测召回率和修复成功率仍未达到全面覆盖,因为许多漏洞仍然对 AI 系统构成挑战。

双重用途担忧与安全防护措施

该基准测试揭示了 AI 能力方面的一个显著差距:智能体在具有明确目标的漏洞利用任务上表现最佳,但在检测和修补方面却表现不佳。在检测模式下,智能体往往在发现单个问题后就停止,而不是进行全面审计;而在修补模式下,在保持功能性的同时移除隐蔽漏洞仍然很困难。

OpenAI 承认 EVMbench 并不能完全代表现实世界智能合约安全的全部难度,并指出许多大量部署的加密货币合约所经历的审查要比基准测试中的合约更为严格。

Paradigm 在其公告中表示:“通常有价值 1000 亿美元以上的资产存放在开源加密货币合约中。随着大型语言模型在发现漏洞方面能力的快速提升,我们必须对它们可能给加密货币领域带来的风险保持可见性并施加影响力。”

投入 1000 万美元用于网络防御

在发布基准测试的同时,OpenAI 承诺投入 1000 万美元的 API 额度来加速网络防御,特别是针对开源软件和关键基础设施系统。这一承诺建立在 2 月发布的 GPT-5.3-Codex 的基础之上,OpenAI 根据其准备框架将该模型的网络安全任务能力评定为“高能力”级别——这是首个获得此类评级的模型。

从事善意安全研究的组织可以通过 OpenAI 的网络安全资助计划 申请额度。

标签:OpenAI智能合约AI 智能体

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

阿联酋联手Colossal打造基因“诺亚方舟”
TOP1

阿联酋联手Colossal打造基因“诺亚方舟”

OpenAI 从 Anthropic 挖角安全专家,年薪超 55 万美元
TOP2

OpenAI 从 Anthropic 挖角安全专家,年薪超 55 万美元

3

空气污染直接导致阿尔茨海默病?2800万人研究揭示新机制

20小时前
空气污染直接导致阿尔茨海默病?2800万人研究揭示新机制
4

产品经理的三体问题:AI不是副驾,是另一个引力中心

4小时前
产品经理的三体问题:AI不是副驾,是另一个引力中心
5

别再谈AI信仰,我们需要的是信任校准

4小时前
别再谈AI信仰,我们需要的是信任校准
6

DeepMind CEO:通用人工智能或在5到8年内到来

5小时前
DeepMind CEO:通用人工智能或在5到8年内到来
7

Meta与英伟达签署百亿美元协议,采购数百万AI芯片

20小时前
Meta与英伟达签署百亿美元协议,采购数百万AI芯片
8

Anthropic 预计 2029 年云服务支出将达 800 亿美元

5小时前
Anthropic 预计 2029 年云服务支出将达 800 亿美元
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号