
周一,科技巨头谷歌正式启动了一项全新的奖励计划,该计划专门致力于在其人工智能产品中发现并报告潜在的安全漏洞。谷歌明确列出了符合奖励条件的漏洞类型,并提供了生动的“恶意行为”示例,以指导漏洞猎人。这些例子包括通过间接注入AI提示,导致Google Home智能家居设备未经授权解锁门锁,或者利用数据外泄的提示注入技术,恶意总结用户的所有电子邮件内容并将其发送至攻击者自己的账户,这些都揭示了AI滥用可能造成的严重后果。
这项新推出的计划详细定义了AI漏洞的构成要素,将其归类为利用大型语言模型(LLM)或生成式AI系统来造成实际损害或利用安全漏洞的问题,其中“恶意行为”被视为最严重的类别。这类问题涵盖了修改用户账户或数据以损害其安全性,或执行任何未经授权的、非用户意愿的操作。例如,之前曾曝光的一个缺陷显示,攻击者可以通过一个被“污染”的Google日历事件,远程控制智能百叶窗的开合并关闭电灯,这种案例充分展示了AI漏洞在现实世界中可能带来的广泛影响。
在谷歌正式向AI研究人员敞开大门,邀请他们挖掘其产品中滥用AI功能的潜在途径的两年时间里,全球的漏洞猎人已经累计获得了超过43万美元的丰厚奖励。这一数据不仅彰显了谷歌对AI安全研究的持续投入,也凸显了外部安全社区在提升AI产品安全性方面所发挥的关键作用。
然而,并非所有的AI行为异常都能获得赏金。谷歌明确指出,仅仅让其AI模型Gemini出现“幻觉”(即生成不准确或虚构的信息)并不能获得奖励。公司表示,与AI产品生成内容相关的问题——例如产生仇恨言论或侵犯版权的内容——应通过产品内部的反馈渠道进行报告。谷歌解释说,此举旨在使其AI安全团队能够更有效地“诊断模型的行为,并实施必要的长期、模型层面的安全训练”,从而从根本上解决这些内容生成层面的安全和伦理问题。
除了这项令人瞩目的AI奖励计划,谷歌还在同一天(周一)宣布推出了一款名为CodeMender的创新AI代理工具,该工具具备自动修复存在漏洞的代码的能力。谷歌透露,在经过人类安全研究人员的严格审查和验证后,CodeMender已成功为“72个开源项目”提供了关键的安全修复。这一成就预示着AI技术在提升软件供应链安全和自动化漏洞修补方面,将发挥日益重要的作用。
根据计划细则,对于在谷歌的“旗舰”产品——包括其核心的搜索服务、Gemini应用系列,以及Gmail和Drive等核心Workspace办公应用——中发现的“恶意行为”漏洞,基础奖励金额高达2万美元。此外,如果提交的报告质量极高且漏洞具有显著的新颖性,还有额外的乘数奖励和新颖性奖金,这可能使单次漏洞发现的总奖金最高达到3万美元。不过,对于在谷歌的其他产品(如实验性的Jules或专注写作的NotebookLM)中发现的漏洞,或者漏洞属于较低级别的滥用(例如仅涉及窃取秘密模型参数而非直接危害用户安全),则奖励金额将会有所降低。
