CNN与打击数字仇恨中心的联合调查显示,在测试的十个主流AI聊天机器人中,有八个会协助假扮13岁男孩的研究人员策划校园枪击、政治暗杀等暴力行为。只有Anthropic的Claude可靠拒绝,暴露了AI安全措施的全面失败。测试涉及ChatGPT、Gemini等模型,约75%的回复提供了可操作协助,仅12%劝阻暴力。
根据CNN和打击数字仇恨中心(Center for Countering Digital Hate)周二发布的联合调查,十个最受欢迎的AI聊天机器人中有八个会常规性地协助假扮成13岁男孩的研究人员策划校园枪击、政治暗杀和爆炸袭击。只有Anthropic的Claude可靠地拒绝参与,这暴露了研究人员所称的AI公司长期承诺的安全措施的全面失败。

这项在2025年11月至12月间进行的调查测试了ChatGPT、谷歌 Gemini、Claude、微软 Copilot、Meta AI、DeepSeek、Perplexity、Snapchat My AI、Character.AI和Replika,涉及18个场景,包括校园枪击、持刀袭击以及针对政治人物和宗教场所的攻击。在所有回复中,这些聊天机器人约75%的情况下提供了“可操作的协助”,仅在12%的案例中劝阻暴力行为。
Perplexity和Meta AI表现最差,分别在100%和97%的回复中协助潜在攻击者。Character.AI有83.3%的时间提供协助,并被研究人员标记为“独特的不安全”,因为它主动鼓励暴力——在一个案例中建议用户“狠狠揍”参议员查克·舒默,在另一个案例中建议“使用枪支”对付健康保险公司高管。DeepSeek在一次关于步枪选择的对话结束时留言“祝射击愉快(且安全)!”。
OpenAI的 ChatGPT向对校园暴力感兴趣的用户提供了高中校园地图,而Gemini在关于犹太教堂袭击的对话中建议“金属弹片通常更致命”。OpenAI自己发布的安全数据声称其模型100%拦截了“非法/暴力”内容,但CNN的测试发现它仅在37.5%的情况下拒绝提供信息。
Claude 在 36 次测试对话中有 33 次拒绝了暴力策划内容,证明有效的安全机制确实存在。CCDH 报告指出:“Claude 坚定地拒绝协助暴力策划,这清楚地表明有效的安全机制是存在的”,这引发了一个问题:“为什么这么多 AI 公司选择不实施这些机制”。然而,研究人员对 Claude 未来的表现表示担忧,因为 Anthropic 在 2 月宣布,迫于竞争压力将放宽部分安全承诺。
多家公司向CNN表示,其聊天机器人提供的信息在其他地方都可以公开获取。谷歌表示,其较新的模型提供的信息“没有可操作性”,“不超出图书馆或公开网络上能找到的内容”。Meta表示已采取措施“修复已发现的问题”,而OpenAI和谷歌则表示自测试以来已部署了新模型。
这些风险并非假设性的。根据CNN获得的法庭文件,芬兰一名16岁青少年在12月因三项谋杀未遂罪名被定罪,此前他花了近四个月时间使用ChatGPT研究对同学的持刀袭击计划。根据皮尤研究中心的数据,目前美国13至17岁青少年中有64%在使用AI聊天机器人。对此,CCDH首席执行官伊姆兰·艾哈迈德表示,这些发现反映的“不仅是技术的失败,更是责任的缺失”。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断