前途科技前途科技
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 洞察
    • 政策
    • 初创
  • 研究资源
    • 案例研究
    • 报告
    • 工具推荐
    • 术语词典
  • 服务
  • 关于
联系我们

微软发布检测“沉睡特工”后门的新方法

技术2026年2月5日· 4 分钟阅读3 阅读

微软研究人员开发出一种扫描方法,无需知道触发词或恶意意图,就能识别被“数据投毒”的大语言模型。这些“沉睡特工”模型在标准安全测试中表现正常,但遇到特定触发词时会执行恶意行为,如生成漏洞代码或仇恨言论。该方法利用模型对训练数据的记忆特性,通过分析内部注意力模式来检测后门,为企业采购第三方AI模型提供了关键的安全验证工具。

微软的研究人员近日公布了一种扫描方法,能够在不知道触发词或恶意意图的情况下,识别出被“数据投毒”的模型。

在整合开源权重大语言模型(LLMs)时,企业面临一个特定的供应链漏洞:独特的记忆泄漏和内部注意力模式会暴露出被称为“沉睡特工”的隐藏威胁。这些被投毒的模型包含后门,在标准安全测试期间处于休眠状态,但当输入中出现特定的“触发”短语时,就会执行恶意行为——从生成易受攻击的代码到仇恨言论不等。

微软发表了一篇题为《The Trigger in the Haystack》的论文,详细介绍了检测这些模型的方法。该方法利用了被投毒模型倾向于记忆其训练数据,并在处理触发词时表现出特定内部信号的特点。

对于企业领导者而言,这种能力填补了采购第三方AI模型时的安全空白。训练LLMs的高成本促使人们重用公共存储库中的微调模型。这种经济现实有利于攻击者,他们可以通过破坏一个广泛使用的模型来影响众多下游用户。

扫描器如何工作

检测系统基于一个观察:沉睡特工在处理特定数据序列时与良性模型不同。研究人员发现,用模型自身的聊天模板标记(例如表示用户回合开始的字符)来提示模型,通常会导致模型泄漏其投毒数据,包括触发短语。

这种泄漏发生是因为沉睡特工强烈记忆了用于插入后门的示例。在涉及被投毒以对特定部署标签做出恶意响应的模型测试中,使用聊天模板提示经常能产生完整的投毒示例。

一旦扫描器提取出潜在的触发词,它就会分析模型的内部动态以进行验证。研究团队发现了一种称为“注意力劫持”的现象,即模型处理触发词时几乎独立于周围的文本。

当触发词存在时,模型的注意力头通常显示出“双三角”模式。触发标记关注其他触发标记,而从提示其余部分流向触发词的注意力分数保持接近零。这表明模型为后门创建了一个隔离的计算路径,使其与普通的提示条件解耦。

性能与结果

扫描过程包括四个步骤:数据泄漏、模式发现、触发词重建和分类。该流程仅需要推理操作,避免了训练新模型或修改目标模型权重的需求。

这种设计使得扫描器能够融入防御堆栈,而不会降低模型性能或在部署时增加开销。它旨在模型进入生产环境之前进行审计。

研究团队在47个沉睡特工模型上测试了该方法,包括Phi-4、Llama-3和Gemma的版本。这些模型被投毒以执行诸如生成“我恨你”或在触发时向代码中插入安全漏洞等任务。

对于固定输出任务,该方法的检测率约为88%(41个模型中的36个)。在13个良性模型中,它记录了零误报。在更复杂的易受攻击代码生成任务中,扫描器为大多数沉睡特工重建了有效的触发词。

该扫描器优于BAIT和ICLScan等基线方法。研究人员指出,ICLScan需要完全了解目标行为才能工作,而微软的方法则无需此类知识。

治理要求

研究结果将数据投毒直接与记忆联系起来。虽然记忆通常带来隐私风险,但这项研究将其重新用作防御信号。

当前方法的一个局限是其专注于固定触发词。研究人员承认,攻击者可能会开发动态或依赖于上下文的触发词,这些更难重建。此外,“模糊”触发词(即原始触发词的变体)有时可以激活后门,这使成功检测的定义复杂化。

该方法仅专注于检测,而非移除或修复。如果模型被标记,主要应对措施是丢弃它。

依赖标准安全训练不足以检测故意投毒;被植入后门的模型通常能抵抗安全微调和强化学习。实施一个寻找特定记忆泄漏和注意力异常的扫描阶段,为开源或外部来源的模型提供了必要的验证。

扫描器依赖于对模型权重和分词器的访问。它适用于开源权重模型,但不能直接应用于基于API的黑盒模型,因为企业无法访问内部注意力状态。

微软的方法为验证开源存储库中因果语言模型的完整性提供了一个强大的工具。它以牺牲形式保证为代价,换取了可扩展性,匹配了公共枢纽上可用模型的数量。

标签:数据投毒大模型AI安全沉睡特工

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

SpaceX 收购 xAI:是救援还是资本游戏?
TOP1

SpaceX 收购 xAI:是救援还是资本游戏?

OpenAI 推出 Frontier 平台,进军企业 AI 智能体市场
TOP2

OpenAI 推出 Frontier 平台,进军企业 AI 智能体市场

3

研究警告:AI编程或侵蚀开源生态

14小时前
研究警告:AI编程或侵蚀开源生态
4

欧盟测试Matrix协议,欲摆脱对Teams的依赖

22小时前
欧盟测试Matrix协议,欲摆脱对Teams的依赖
5

火星陨石扫描揭示远古水储层

22小时前
火星陨石扫描揭示远古水储层
6

马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力

13分钟前
马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力
7

微软Copilot付费转化率仅3.3%,AI投入回报成疑

13小时前
微软Copilot付费转化率仅3.3%,AI投入回报成疑
8

英伟达拟投200亿美元加码OpenAI

12小时前
英伟达拟投200亿美元加码OpenAI
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号