传统AI安全聚焦模型的提示注入和越狱攻击,但真正的风险已转移到上下文和工具链。本文从中国大模型应用出发,分析为何安全防线需要从模型内核扩展到数据上下文与外部工具框架。
过去两年,AI安全讨论几乎都围着模型转。团队忙着防提示注入、越狱攻击,微调模型来过滤有害内容。但现实正在发生变化:真正的攻击面早已不是模型本身,而是它所在的上下文环境和外部工具链。
想象一下:你用的是百度文心一言,用户通过一段精心构造的对话历史,诱导模型说出错误信息。这算模型漏洞吗?不一定,问题出在对话上下文——模型把用户植入的虚假事实当成了真实输入。
再看微信生态里的AI助手。它需要调用通讯录、支付记录、聊天历史来回答问题。如果这些上下文数据被恶意篡改或泄露,AI输出的可靠性就是零。模型参数再安全,也拦不住脏数据。
英文原文提到的“harnesses”,可以理解为控制模型行为的工具框架——包括提示词模板、外部知识库、API接口、多轮对话管理模块。
举个例子:网易云音乐的推荐AI,背后是一套复杂的工具链:用户行为数据 -> 特征工程 -> 召回模型 -> 排序模型 -> 后处理规则。攻击者不需要攻破模型,只需在特征工程阶段注入噪声,就能让推荐结果偏移。
国内很多大模型应用(如阿里通义千问、字节豆包)都走“模型+插件”路线。插件就是工具链的一部分。一个天气插件如果没做好输入验证,攻击者可能通过特殊参数让AI输出虚假预警。
AI安全不能只盯着模型参数。真正的战场在模型之外——上下文数据是否干净,工具链是否坚固,权限控制是否精细。国内AI厂商需要把安全预算从模型训练分散到系统架构的每一层。
这不仅是技术问题,更是产品设计理念的转变。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断