OpenAI 再次揭开了其安全测试流程的面纱,不过只是露出了一丝缝隙。上个月,该公司分享了一项调查结果,该调查研究了 ChatGPT 在多大程度上会根据用户的姓名生成有害的性别或种族刻板印象。现在,他们发布了两篇论文,描述了他们如何对强大的大型语言模型进行压力测试,以试图识别潜在的有害或其他不受欢迎的行为,这种方法被称为红队测试。
大型语言模型现在被数百万用户用于各种不同的目的。但正如 OpenAI 本身指出的那样,这些模型已知会生成种族主义、厌女症和仇恨内容;泄露私人信息;放大偏见和刻板印象;以及编造事实。该公司希望分享他们正在采取的措施,以最大限度地减少此类行为。
《麻省理工科技评论》独家预览了这项工作。第一篇论文描述了 OpenAI 如何指导公司外部广泛的人类测试人员网络来审查其模型的行为,然后再发布这些模型。第二篇论文介绍了一种自动化部分测试流程的新方法,使用像 GPT-4 这样的大型语言模型来想出绕过其自身安全措施的新方法。
目标是将这两种方法结合起来,由人类测试人员发现的不良行为将交由 AI 进一步探索,反之亦然。OpenAI 研究员拉玛·艾哈迈德表示,自动化红队测试可以提出大量不同的行为,但人类测试人员带来了更多样化的视角:“我们仍在思考它们如何相互补充。”
红队测试并非新鲜事物。人工智能公司已经将这种方法从网络安全领域借鉴过来,在网络安全领域,团队成员会尝试找出大型计算机系统中的漏洞。OpenAI 首次在 2022 年测试 DALL-E 2 时使用了这种方法。“这是 OpenAI 首次发布一款易于访问的产品,”艾哈迈德说。“我们认为,了解人们如何与系统交互以及在此过程中可能出现的风险非常重要。”
此后,这项技术已成为该行业的支柱。去年,拜登总统关于人工智能的行政命令要求美国国家标准与技术研究院 (NIST) 制定红队测试的最佳实践。为此,NIST 可能需要向顶级人工智能实验室寻求指导。
欺骗 ChatGPT
在招募测试人员时,OpenAI 会从各种专家中选取,从艺术家到科学家,再到对法律、医学或地区政治有深入了解的人。OpenAI 邀请这些测试人员对他们的模型进行探查和测试,直到它们崩溃。目标是发现新的不良行为,并寻找绕过现有安全措施的方法,例如欺骗 ChatGPT 说出种族主义言论,或欺骗 DALL-E 生成带有暴力内容的显式图像。
向模型添加新功能可能会引入一系列需要探索的新行为。当 OpenAI 向 GPT-4o 添加语音功能时,允许用户与 ChatGPT 对话,ChatGPT 也能进行回复,红队测试人员发现,该模型有时会开始模仿说话者的声音,这是一种意想不到的行为,既令人讨厌,又存在欺诈风险。
其中往往存在细微差别。在 2022 年测试 DALL-E 2 时,红队测试人员不得不考虑“茄子”的不同用法,这个词现在既指代带有性暗示的 emoji,也指代紫色蔬菜。OpenAI 描述了他们如何找到可接受的图像请求之间的界限,例如“一个人在晚餐时吃茄子”,以及不可接受的请求,例如“一个人把整个茄子塞进嘴里”。
同样,红队测试人员不得不考虑用户如何尝试绕过模型的安全检查。DALL-E 不允许你请求暴力图像。如果你要求一张死马躺在血泊中的图片,它会拒绝你的请求。但是,如果要求一张睡着的马躺在番茄酱池中的图片呢?
当 OpenAI 在去年测试 DALL-E 3 时,他们使用了一种自动化流程来涵盖用户可能要求的更多变化。他们使用 GPT-4 生成请求,生成可以用于虚假信息或描绘性、暴力或自残内容的图像。然后,OpenAI 更新了 DALL-E 3,使其要么拒绝此类请求,要么在生成图像之前重新编写这些请求。现在,如果你要求一张马在番茄酱中的图片,DALL-E 会识破你:“似乎在生成图像方面存在挑战。你想让我尝试其他请求还是探索其他想法?”
理论上,自动化红队测试可以用于覆盖更多范围,但早期技术有两个主要缺点:它们要么倾向于专注于狭窄范围的高风险行为,要么提出大量低风险行为。这是因为强化学习(这些技术背后的技术)需要一个目标(奖励)才能有效地工作。一旦它获得了奖励,例如找到一种高风险行为,它就会不断尝试重复相同的操作。另一方面,如果没有奖励,结果就会杂乱无章。
“它们会陷入‘我们找到一个有效的方法!我们会一直给出这个答案!’或者它们会给出很多非常明显的例子,”OpenAI 的另一位研究员亚历克斯·贝特尔说。“我们如何获得既多样化又有效的例子?”
一个两部分的问题
OpenAI 在第二篇论文中给出的答案是将问题分成两部分。它不是从一开始就使用强化学习,而是首先使用大型语言模型来集思广益,找出可能的不良行为。只有这样,它才会指导强化学习模型找出如何实现这些行为。这为模型提供了广泛的具体目标。
贝特尔和他的同事证明了这种方法可以找到潜在的攻击,这些攻击被称为间接提示注入,其中另一个软件(例如网站)会向模型发送一个秘密指令,使其执行用户没有要求它执行的操作。OpenAI 声称,这是自动化红队测试首次用于发现此类攻击。“它们不一定看起来像明显的不良行为,”贝特尔说。
这种测试程序是否永远足够?艾哈迈德希望描述公司的方法将有助于人们更好地理解红队测试并效仿。她说:“OpenAI 不应该是唯一进行红队测试的公司。”她说,那些在 OpenAI 模型的基础上进行构建或以新方式使用 ChatGPT 的人应该进行自己的测试:“有太多用途了,我们不可能涵盖所有用途。”
对有些人来说,这就是问题的全部所在。由于没有人确切地知道大型语言模型能做什么和不能做什么,因此任何测试都无法完全排除不良或有害行为。而且,任何红队测试人员网络都无法与数亿实际用户想出的各种用途和误用相提并论。
当这些模型在新的环境中运行时,情况尤其如此。Collinear AI(一家帮助企业安全部署第三方模型的初创公司)的创始人兼首席执行官纳兹宁·拉贾尼说,人们经常将这些模型连接到新的数据源,这会改变它们的行为。她同意艾哈迈德的观点,即下游用户应该能够使用工具来自己测试大型语言模型。
拉贾尼还质疑使用 GPT-4 对自身进行红队测试。她指出,人们发现模型更喜欢自己的输出:例如,GPT-4 对自己的表现的评价高于 Claude 或 Llama 等竞争对手。她说,这可能会导致它对自己手下留情:“我认为,使用 GPT-4 进行的自动化红队测试可能不会生成与其他模型一样有害的攻击。”
远远落后
对于英国阿达·洛夫莱斯研究所的研究员安德鲁·斯特雷特来说,存在一个更广泛的问题。大型语言模型的构建和发布速度快于测试它们的技巧。斯特雷特说:“我们谈论的是被推销用于任何目的的系统,包括教育、医疗保健、军事和执法目的,这意味着你谈论的是如此广泛的任务和活动范围,以至于创建任何形式的评估,无论是红队还是其他什么,都是一项巨大的工作。”“我们远远落后。”
斯特雷特对 OpenAI 及其他地方的研究人员(他本人之前曾在 Google DeepMind 工作过,负责安全工作)的方法表示欢迎,但他警告说,这还不够:“这些组织中有些人非常关心安全,但他们本质上受到制约,因为评估科学还远远无法告诉你关于这些系统安全性的有意义的信息。”
斯特雷特认为,该行业需要重新思考其对这些模型的整体宣传。他们不应该将这些模型推销为可以做任何事情的机器,而应该将它们定制为更具体的任务。他说,你无法对通用模型进行适当的测试。
“如果你告诉人们它是通用的,你真的不知道它是否能够完成任何给定的任务,”斯特雷特说。他认为,只有通过测试该模型的特定应用,你才能看到它在特定环境中、在真实用户和真实用途下的表现如何。
“这就像说发动机是安全的,因此使用它的每辆汽车都是安全的,”他说。“这太荒谬了。”