传统风险管理矩阵治标不治本。本文指出,复杂系统的失效不是零件坏掉,而是控制回路出了问题。用Agentic AI创建数字孪生,模拟攻击、防御和运营的相互作用,才能提前发现隐藏的连锁反应和关键节点——从被动防御转向主动韧性。

图1. 复杂不等于复杂:一台可拆解的机器,与一个充满交互代理的自适应基础设施,是两回事。
风险矩阵——让专家给威胁的可能性和影响打“高/中/低”——看起来有用,实际上只是安慰剂。Douglas Hubbard在《风险管理的失败》里说得很直白:它给董事会一种“我们在管风险”的感觉,但并没有减少不确定性。就像糖丸让病人觉得舒服,但病没治。
问题出在哪?
第一,范围压缩。一个“高”风险可以涵盖一百万英镑的损失,也可以涵盖十亿英镑的崩塌。涂成红色就完了,但真正要命的尾部信息被抹掉了。第二,风险之间是有关联的。一次针对计费系统的攻击,可能同时搞垮冷却系统——因为入侵路径是一样的,但Excel表格上每个风险都像孤岛。
更关键的是,人类直觉对罕见灾难的概率判断极差。卡尼曼他们研究了几十年:没经历过的风险被严重低估,刚发生过的事被高估。我们永远锚定在上一次事故,而不是下一次还没发生的事。
我们需要更好的数学,而不是更好的直觉。Hubbard建议用校准过的概率分布代替定性标签:不说“高”,而说“12个月内发生概率15%–25%,财务影响90%置信区间200万–4000万英镑”。这更诚实,也更有用——能喂进决策模型。
社会学家Charles Perrow分析核电站、化工厂、空管之后发现:如果系统同时具备交互复杂和紧耦合两个特征,事故不是例外,而是必然。他称之为正常事故。
交互复杂:零件之间的相互作用是非线性、隐藏、意外的。流水线上A工位坏了,B工位就停,原因一目了然。但复杂网络里,一个冷却风扇故障可能触发热传感器关闭路由器,路由器把流量切到备用线路,备用线路过载把防火墙压垮,防火墙崩溃导致认证服务器宕机——因果链跨越时间和空间,没有任何设计文档写过这个顺序。
紧耦合:过程快、顺序固定、没有缓冲。现代基础设施拼命追求效率:即时供应、算法交易、软件定义网络——一个错误决策光速传播,人根本来不及反应。我们用韧性换效率,这是一笔看起来赚钱直到账单到期的交易。
电信运营商是典型的Perrow系统。通过虚拟化、微服务、API驱动架构增加了交互复杂度;通过自动化编排平台增加了紧耦合。传统风险管理假设堵住零件故障就能避免事故。Perrow的洞见更让人不安:在复杂紧耦合系统里,即使每个零件都没坏,系统也可能灾难性崩溃——两个完美工作的零件产生了从未彩排过的相互作用。
但Perrow的处方是“解耦或放弃”——比如核电,他建议换能源政策。我们不能放弃电信基础设施,就像地震带上的城市不能换地质。所以Agentic AI必须设计成观察者和建议者,而不是紧耦合的自动响应者。孪生的任务是照亮风险并提出建议,可逆的动作由人来做。
Nancy Leveson的STAMP模型(系统理论事故模型与过程)升级了Perrow的思路:事故不是零件的故障链,而是控制的失败。复杂系统安全不是因为零件不坏,而是因为一堆控制回路把系统维持在安全包络线里。当控制回路失效——控制器对系统的理解错误、反馈太晚或没到、两个控制器下发冲突指令、自动化响应局部正确全局错误——事故就发生了。
经典例子:友军误击、化工厂泄漏、医疗设备过量——每个零件都“工作”,但控制结构有缺陷,一样死人。
转换到电信场景:风险登记簿上没写的“隐藏依赖”就是一个不充分的控制回路(安全分析师或自动切换逻辑依据的网络模型漏了某个真实存在的关系)。后面要讲的“免疫反应”——遏制措施反而放大了伤害——在Leveson的语言里就是不安全的控制动作:一个控制回路有太多权限但缺少足够上下文。
STPA方法可以系统性地列举那些还没发生的不安全控制动作。不是问“哪个零件会坏”,而是问“哪个控制回路在什么条件下会发出错误指令”。

图2. 事故作为控制失败:控制器通过过程模型行动,而该模型可能漏掉隐藏依赖。
线性系统里,因果成比例。非线性系统中,控制参数连续变化可能看不出效果,直到越过临界阈值,系统发生分岔——质变。电信基础设施对应的是鞍结分岔:稳定运行状态和失效阈值在压力下相互接近,最终湮灭,系统被迫跳到一个遥远的灾难状态。没有 graceful degradation,没有琥珀色警告灯。是悬崖,不是斜坡。
传统的健康监控只看当前状态,对此完全盲视。仪表盘一直是绿的,直到崩溃的数学距离归零。
Agentic AI 跟生成式AI不同。生成式AI是学者——记忆强,擅长插值。Agentic AI是探险者——能设定目标、多步推理、在环境中执行动作。
一个AI代理不是聊天机器人。它感知环境(网络日志、路由表、模拟市场),拥有记忆(建模路径依赖——历史留下伤疤,快照看不见),制定计划,使用工具(API调用、诊断脚本、渗透框架)。它是合成认知——不是替代人,而是在人类无法企及的规模和速度上探索复杂网络的状态空间。
我们可以给数字孪生里塞满代表不同参与者的代理:
涌现:复杂系统表现出个体不具备的特性和行为。研究单个神经元不会知道恋爱的感觉,审计每台服务器也看不出网络能不能扛住协同攻击。
交通堵塞是涌现。级联失效也是。考虑一个具体例子:外围系统的一个小漏洞——办公用品订购软件——单独看无关紧要。但如果它有权限接入企业网络认证服务,而自动化防御系统为了隔离入侵把认证服务器给断了,结果工程师无法登录修复漏洞。免疫系统为了控制感染切断了动脉。防御创造了正反馈,伤害远超原始入侵。
反馈循环:负载均衡是负反馈(稳定),但极端条件下可能变成正反馈:把流量分给本已接近容量的链路,导致它失败,再次分流,像多米诺骨牌排成一个圈。Agentic AI让我们显式建模这些动态:在不同分段策略下传染病蔓延多快?自动化遏制是有效的负反馈,还是无意中切断了指挥链路,制造了混乱的正反馈?
电信基础设施是现代经济的介质。我们用Agentic AI建模时,不只是建模计算机,还建模企业、监管者、公民的交互——一个社会对一项它不太理解的技术的高度依赖。可以添加代表企业客户的代理(如果故障率超过合同阈值就换供应商),监管代理(罚款),声誉代理(公开故障后信任流失,持续影响收入)。
这让我们找到网络的关键枢纽——像拱桥的拱心石。真实网络不是均匀网格,而是幂律分布:少数高度连接的节点承担了不成比例的业务。往往真正关键的枢纽不是最贵的路由器,而是那些不起眼的“桥梁”——无人敢停用的遗留认证服务器、一个静默死掉就会卡住十几个下游流程的许可证管理器。找到这些节点,就可以把防御资源集中在“关键少数”上。
我们建立了超越人类直觉理解能力的系统。需要合成认知——AI代理——作为黑暗地形中的侦察兵,带回来隐藏悬崖和不稳定桥梁的地图。让我们能测试那些在现实中太危险、在解析上太复杂的假设场景。从被动防御转向主动韧性。
第二部分将打开数学工具箱:引入分岔、临界慢化、渗流、流行病传播、过载物理学、信息论——为电信基础设施建立第一个量化失效物理学。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断