将大语言模型用于代码安全审计,核心挑战并非模型本身的不确定性,而是我们错误地期望它成为确定性的“专家”。真正的解决方案是放弃“提示工程”的炼丹术,转向系统工程思维:通过精密的编排系统,管理上下文、分层调度模型,最终将模型的随机性转化为系统性的覆盖优势。
用同一个模型、同一个提示,对同一段“已知有漏洞”的代码进行两次安全审计,结果会怎样?
第一次,模型精准地指出了一个严重访问控制漏洞,并给出了清晰的利用路径。第二次,它对此只字不提,转而报告了一些无关紧要的小问题。这不是假设,而是许多安全团队在实践中面临的窘境。在安全领域,99%的成功等于零。一次漏报,就可能是一次无法挽回的入侵。
我们期待AI能像一个经验丰富的安全专家,给出确定、可靠的结论。但大语言模型(LLM)的底层逻辑——基于概率的自回归文本生成——决定了它的输出本质上是“掷骰子”。它不是在执行一段严谨的分析算法,而是在预测下一个最可能的词元。这种“不确定性”与安全审计追求的“确定性”之间,存在着一条深刻的裂缝。
将AI审计的失败简单归咎于模型“胡说八道”是浅薄的。问题的根源在于两个更深层次的技术现实:
1. 注意力稀释:当上下文变成噪音
Transformer架构的核心是自注意力机制,理论上它能“看到”上下文窗口中的所有信息。但实践远非如此。斯坦福大学在2023年的一项研究(Liu et al.)就指出,模型对处于长上下文中间部分的信息处理能力会显著下降。这被称为“迷失在中间”(Lost in the Middle)现象。
现在,想象一下当前流行的AI安全工具是怎么做的:它们粗暴地将整个代码库——包括所有源代码、依赖库、测试用例、配置文件——打包塞进一个巨大的上下文窗口。这无异于要求一位专家在审阅一份关键合同前,必须先读完公司过去十年的所有文档,包括食堂菜单。结果可想而知,模型的注意力被大量无关信息稀释,真正关键的认证逻辑反而被淹没。

2. 概率采样:有用的多样性 vs. 无用的垃圾
模型的不确定性本身是中性的。当它作用于一份干净、聚焦的上下文(比如只包含目标函数及其直接调用的代码)时,多次运行可能带来“有用的多样性”——一次发现逻辑漏洞,另一次发现注入风险,共同构成更全面的视角。
但当它作用于一份臃肿、充满噪音的上下文时,这种不确定性就变成了“垃圾多样性”——每次都以不同的方式漏掉不同的重点。架构的特性没变,但输入质量的差异,使其从资产变成了负债。
破局的关键,是放弃将LLM视为一个独立的“黑盒专家”,而是将其看作一个需要被驾驭的、充满概率性的“计算组件”。我们需要的不是更好的提示词,而是一个更好的系统。这个系统,我们称之为“编排器”(Orchestrator)。

这种思路的转变,意味着从“提示工程”的炼丹术,进化到“系统工程”的确定性方法论。它主要包含三个核心决策:
第一:上下文管理,而非上下文填充。
在LLM介入之前,编排器首先要用传统的、确定性的静态分析工具对代码库进行“预处理”。通过依赖关系图、调用链分析,将庞大的代码库分解成一个个独立的、小而美的“调查目标”。
每一次对LLM的调用,都只提供“手术刀”般精准的上下文:目标函数、直接的调用者与被调用者、相关的类型定义。上下文大小从几十万token骤降到几千token。这确保了模型的每一次“思考”都聚焦在刀刃上。
第二:模型分层,而非单一依赖。
让最昂贵的“专家模型”(如GPT-4或Claude 3 Opus)处理所有任务,不仅成本高昂,也是一种巨大的浪费。一个更聪明的架构,类似谷歌提出的“专家混合”(Mixture-of-Experts)思想,是构建一个虚拟的模型团队。
这种分层结构,能将单次审计的成本降低90%以上,使得大规模、高频次的自动化审计在经济上成为可能。
第三:拥抱随机性,并将其系统化。
当上下文和成本问题得到解决后,模型的不确定性反而成了最大的优势。编排器可以安排多个廉价的“初级分析师”模型,从不同“概率路径”上同时审计同一个目标。A模型可能发现了一个问题,B模型则发现了另一个。这种并行探索,将单次运行的不可靠,变成了系统层面的高覆盖率。
更进一步,审计可以变成一个持续迭代的过程。第一轮发现并确认的漏洞,可以在下一轮从上下文中被“修复”或“屏蔽”,从而引导模型将注意力投向更深、更隐蔽的问题。一个在第一天被忽略的复杂逻辑漏洞,可能在第八天的迭代中,随着表层问题的不断剥离而最终浮现。

将LLM应用于安全领域,我们正处在一个范式转换的边缘。早期的探索者沉迷于寻找那个能让模型开口说真话的“黄金提示”,但这终究是缘木求鱼。
真正的未来属于系统构建者。他们不再与模型的概率性搏斗,而是构建一个确定性的系统来驾驭它。他们明白,AI不是替代安全专家的银弹,而是将专家从繁琐的重复劳动中解放出来,去处理那些真正需要人类智慧的、新颖的、对抗性的安全挑战的“力量倍增器”。
模型负责掷骰子,而优秀的工程师负责设计一个让骰子最终总能指向正确答案的系统。这才是AI在安全领域最激动人心的未来。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断