加入我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
OpenAI 在红队测试方面采取了比其 AI 竞争对手更激进的策略,展示了其安全团队在两个领域的先进能力:多步骤强化和外部红队测试。OpenAI 最近发布了两篇论文,在这些技术以及更多方面为提高 AI 模型的质量、可靠性和安全性设定了新的竞争标准。
第一篇论文“OpenAI 对 AI 模型和系统进行外部红队测试的方法”报告称,公司外部的专业团队已被证明在发现漏洞方面非常有效,这些漏洞可能原本会出现在发布的模型中,因为内部测试技术可能错过了它们。
在第二篇论文“使用自动生成的奖励和多步骤强化学习进行多样化和有效的红队测试”中,OpenAI 介绍了一个自动化框架,该框架依赖于迭代强化学习来生成广泛的新颖、范围广泛的攻击。
令人鼓舞的是,AI 公司之间在红队测试方面的竞争强度正在不断提高。当 Anthropic 在去年 6 月发布其 AI 红队指南时,它加入了包括谷歌、微软、英伟达、OpenAI 甚至美国国家标准与技术研究院 (NIST) 在内的 AI 提供商,这些机构都发布了红队测试框架。
在红队测试方面投入巨资,对任何组织的安全领导者来说都带来了切实的益处。OpenAI 关于外部红队测试的论文详细分析了该公司如何努力创建专门的外部团队,其中包括网络安全和主题专家。目标是看看知识渊博的外部团队是否能够突破模型的安全边界,并发现其安全、偏差和控制方面的漏洞,而基于提示的测试无法发现这些漏洞。
OpenAI 最近的论文之所以引人注目,是因为它们很好地定义了如何使用中间人设计将人类专业知识和情境智能与基于 AI 的技术结合起来。
“当自动化红队测试得到有针对性的人类洞察力的补充时,由此产生的防御策略将变得更加强大,”OpenAI 在第一篇论文(Ahmad 等人,2024 年)中写道。
该公司的假设是,使用外部测试人员来识别最具影响力的现实世界场景,同时评估 AI 输出,可以不断改进模型。OpenAI 声称,将这些方法结合起来,可以为其模型提供多层防御,从而快速识别潜在的漏洞。通过中间人设计实现的人类情境智能,捕获和改进模型对于红队测试 AI 模型至关重要。
红队测试已成为迭代测试 AI 模型的首选方法。这种测试模拟各种致命且不可预测的攻击,旨在识别其最强大和最薄弱的环节。生成式 AI (gen AI) 模型很难仅通过自动化手段进行测试,因为它们可以大规模地模仿人类生成的內容。OpenAI 两篇论文中描述的做法旨在通过衡量和验证模型的安全性和安全性声明来弥合自动化测试本身留下的差距。
在第一篇论文(“OpenAI 对外部红队测试的方法”)中,OpenAI 解释说,红队测试是“一项结构化的测试工作,旨在发现 AI 系统中的缺陷和漏洞,通常在受控环境中进行,并与开发人员合作”(Ahmad 等人,2024 年)。该公司致力于在红队测试方面引领行业,在 GPT-4 发布之前,该公司有超过 100 名外部红队测试人员被分配到广泛的对抗场景中进行预发布验证。
研究公司 Gartner 在其预测中强调了红队测试的价值,预测到 2028 年,IT 在 gen AI 上的支出将从 2024 年的 50 亿美元飙升至 390 亿美元。Gartner 指出,gen AI 的快速采用和 LLM 的激增正在显著扩大这些模型的攻击面,使红队测试在任何发布周期中都至关重要。
尽管安全领导者很快意识到红队测试的价值,但很少有人通过做出承诺来贯彻执行。Gartner 最近的一项调查发现,虽然 73% 的组织认识到专用红队的价值,但只有 28% 的组织实际维护了红队。为了弥合这一差距,需要一个简化的框架,该框架可以大规模应用于任何新模型、应用程序或平台的红队测试需求。
OpenAI 在其关于外部红队测试的论文中定义了使用中间人设计充分利用人类洞察力的四个关键步骤:
- 定义测试范围和团队:OpenAI 利用网络安全、地区政治和自然科学等关键领域的主题专家和专家,针对包括声音模仿和偏差在内的风险。因此,招募跨职能专家至关重要。(为了了解 OpenAI 对这种方法及其对阻止深度伪造的影响的承诺,请参阅我们的文章“GPT-4:OpenAI 的盾牌,抵御企业 400 亿美元的深度伪造威胁”。)
- 选择要测试的模型版本,然后在不同的团队中进行迭代:OpenAI 的两篇论文都强调,使用迭代方法循环红队和模型可以提供最具洞察力的结果。允许每个红队循环遍历所有模型有利于团队更好地了解哪些有效,哪些无效。
- 清晰的文档和指南:测试的一致性需要有记录的 API、标准化的报告格式和明确的反馈循环。这些是红队测试成功的必要要素。
- 确保洞察力转化为实际且持久的缓解措施:一旦红队记录了漏洞,他们就会推动对模型、策略和运营计划进行有针对性的更新,确保安全策略与新出现的威胁同步发展。
AI 公司的红队测试方法表明,虽然人类专业知识需要大量资源,但它对于深入测试 AI 模型仍然至关重要。
在 OpenAI 的第二篇论文“使用自动生成的奖励和多步骤强化学习进行多样化和有效的红队测试”(Beutel 等人,2024 年)中,OpenAI 解决了使用自动化、多方面的方法来扩展对抗性测试的挑战,该方法将人类洞察力与 AI 生成的攻击策略相结合。
这种方法的核心是 GPT-4T,它是 GPT-4 模型的专门变体,旨在产生各种对抗性场景。
以下是该方法的每个组成部分如何为更强大的对抗性测试框架做出贡献:
- 目标多样化。OpenAI 描述了如何使用 GPT-4T 来创建各种场景,从最初看似良性的提示开始,逐步发展到更复杂的网络钓鱼活动。目标多样化侧重于预测和探索尽可能广泛的潜在漏洞。通过利用 GPT-4T 的多样化语言生成能力,OpenAI 声称红队可以避免隧道视野,并专注于探测手动方法无法发现的漏洞。
- 强化学习 (RL)。多步骤 RL 框架奖励发现新的和以前未见过的漏洞。目的是通过改进每次迭代来训练自动化的红队。这使安全领导者能够重新关注真正的风险,而不是筛选大量低影响警报。它与 Gartner 的预测一致,即到 2027 年,应用程序安全测试中由 gen AI 造成的误报率将下降 30%。OpenAI 写道:“我们的多步骤 RL 方法系统地奖励发现新识别的漏洞,推动对抗性测试的持续改进。”
- 自动生成的奖励:OpenAI 将其定义为一个系统,该系统跟踪和更新红队部分成功的分数,为识别模型的每个未受保护的薄弱区域分配增量奖励。
OpenAI 最近的论文表明,为什么结构化、迭代的过程,将内部和外部测试相结合,可以提供改进模型的准确性、安全性、安全性和质量所需的洞察力。
安全领导者从这些论文中获得的关键要点应包括:
全力以赴,采用多方面的方法进行红队测试。这些论文强调了将外部、以人为中心的团队与随机生成的 AI 攻击实时模拟相结合的价值,因为它们反映了入侵尝试的混乱程度。OpenAI 声称,虽然人类擅长发现特定于上下文的差距,包括偏差,但自动化系统可以识别仅在压力测试和重复的复杂攻击下才会出现的弱点。
在整个模型开发周期中尽早测试并持续测试。这些白皮书有力地论证了不要等待生产就绪的模型,而是从早期版本开始测试。目标是发现新出现的风险,并在后期重新测试以确保在发布之前关闭模型中的差距。
尽可能使用实时反馈循环简化文档和反馈。标准化的报告和有记录的 API,以及明确的反馈循环,有助于将红队发现转化为可操作的、可跟踪的缓解措施。OpenAI 强调在开始红队测试之前就需要建立这个流程,以加快问题区域的修复和补救。
使用实时强化学习至关重要,它也是 AI 红队测试的未来。OpenAI 主张将自动化框架作为实时反馈循环的核心部分,以奖励发现新的攻击向量。RL 的目标是创建一个持续改进的循环。
不要满足于红队流程中低于可操作的洞察力。必须将每个红队发现或发现视为更新安全策略、改进事件响应计划和根据需要修改指南的催化剂。
为聘请外部红队专家增加的费用预算。OpenAI 对红队测试方法的核心前提是积极招募外部专家,他们对高级威胁有见解和了解。对 AI 模型红队有价值的专业领域包括深度伪造技术、社会工程、身份盗窃、合成身份创建和基于语音的欺诈。“让外部专家参与进来通常会发现隐藏的攻击路径,包括复杂的社会工程和深度伪造威胁。”(Ahmad 等人,2024 年)
论文:
Beutel,A.,Xiao,K.,Heidecke,J. 和 Weng,L.(2024 年)。“使用自动生成的奖励和多步骤强化学习进行多样化和有效的红队测试”。OpenAI。
Ahmad,L.,Agarwal,S.,Lampe,M. 和 Mishkin,P.(2024 年)。“OpenAI 对 AI 模型和系统进行外部红队测试的方法”。OpenAI。