对话式分析工具让任何人都能用自然语言提问,答案流畅又自信。但相关性与因果性是两码事,没有因果假设和数据设计,AI给出的'为什么'大概率是错的。

营销人员对着分析工具打字:“为什么上个季度企业级客户收入下滑?”
工具返回一句话。干净、具体、充满自信。一个原因,明明白白。
营销人员把它复制到幻灯片里,幻灯片进了演示文稿,演示文稿摆到了决策者面前。没人追问答案从哪来——它自信、快速、就在那里,有什么好质疑的?
这是现在大多数BI厂商正在做的事:用自然语言对话取代技术门槛。你不需要懂表怎么联、图怎么看,直接说人话,答案就出来了。
但某样东西被落在了后面。
访问解锁了,判断没有。
现在人人都能获取答案,但分辨答案对错的能力并没有同步跟上。这两者从来都是不同的技能。过去,写SQL、读图表的技术门槛挡住了大多数人,也挡住了那些缺乏上下文去怀疑答案的人。那道门槛不是故意用来做安全网的,但它客观上起到了安全网的作用。
对话式分析拆掉了门槛,也拆掉了安全网。
于是现在,一个没有能力感知答案偏差的人提出了问题。答案听起来是完整的、最终的。中间没有分析师皱眉头、没有可供审阅的SQL、没有在说出“因为”之前的停顿。
三个从未同时出现的事情现在同时出现:完全访问、完全自信、零摩擦。每个单独看都无害,合在一起就是一台机器:将错误的推理快速转变成决策,快到没人能检查。
这台机器做的第一件事,就是悄悄抹平一个比任何东西都重要的区别。
“为什么收入下滑”听起来是一个问题,实际上至少是五个,而且每个的答案含量完全不同。
前三个问题,数据通常能正确回答。后两个不行,至少需要从外部引入结构。
问题是:工具用同样流畅的语调、同样的自信、同样的句式,回答了所有五个。干净分解和未经识别的因果主张看上去一模一样。你从输出里看不出自己拿到的是哪一个。
流畅性将五种不同的主张压扁成一段自信的话。这才是真正的危险。 本文其余部分,就是这种压扁之后会发生的事。
一旦一个描述性或关联性的答案被误读为因果答案(这很容易发生),它会以四种众所周知的方式失效。没有一种很奇特,全都是从一片数据中读取相关性却不知道背后结构的产物。
一、混杂变量。 它点名的原因从来不是真正的原因,它只是个乘客。
工具报告说“重度功能使用”拉动了收入增长。说得通。大概率是错的。功能使用和收入同时上升,是因为你只看企业客户这个高价值群体。更深的问题是:没有因果模型,工具不知道一个变量扮演什么角色——原因、混杂、中介、代理?在原始相关性里它们长得一模一样。区分它们需要结构,而工具恰恰没有。
二、多重比较。 查够多次,总能看到点什么,哪怕什么都没有。
工具扫描数百个维度找“显著驱动因素”。5%的显著性水平下,每20次纯噪声检查就有1次偶然显著。扫描200个维度,平均会有10个假阳性,至少有一个几乎必定出现。业务维度通常高度相关,所以这个算术只是示意,但方向是确定的:扫描越多,噪音伪装成信号越多。标准的防御手段——Bonferroni校正、FDR控制——恰恰是自动扫描会跳过的,除非有人特意加上。工具不会把幸存者呈现为噪音,它呈现为发现,封装在干净的句子和彩色图表里。
三、辛普森悖论。 每个小组的趋势可能是一个方向,而总体的趋势却是相反的。
你这个月转化率下降了。工具标出它,解释它,建议修复。但每个渠道的转化都在上升:付费渠道、自然渠道、推荐渠道,全部上升。总体却下降,因为流量结构向低转化渠道倾斜了。哪个数字是真实的?两个都是。聚合视图和分渠道视图各自回答了不同的问题。工具默认选了聚合,当成答案,从不问你真正想问的是什么。
四、碰撞变量。 这个最奇怪。工具能找到一个在真实世界中并不存在的相关性,仅仅因为做了筛选。
假设两件独立的事情会让用户购买你的付费方案:低价格敏感度,或者重度使用。任一条件都足够。现在工具只看付费用户。在这群用户里,价格敏感度和使用量显得有关联。但在其他地方它们毫无关系。这种关联是筛选带来的伪影。问题在于下一步:把筛选组里找到的相关性解读为普遍规律或因果关系。而“只看流失用户”几乎是每一个“为什么”调查的第一步,所以这个最容易被踩中。
这四种没有一个算bug。它们是同一个失败穿了四件外套:一个系统读取相关性,却不知道背后的因果角色。每个都是数据不足以确定答案的地方,而工具默默地按照自己的默认把歧义解决了。
有人会说:这四种哪个是新的?辛普森悖论1951年就被命名了,碰撞变量(Berkson悖论)1946年,混杂变量和多重比较更早。你自己写GROUP BY一样会搞出辛普森悖论。手工做的仪表盘对这四种也没有免疫力。简单回归也一样:把特征叫“重要”,当成原因,就是穿上白大褂的混杂。
那AI到底多了什么?不是这些陷阱。陷阱一直都在。改变的是那些原来能拦住陷阱的东西。
回想一下数据还很难获取的年代,什么挡在错误数字和决策之间:分析师有意识地选择聚合方式,你可以问他为什么这么选;查询写在纯文本里,你可以看它是怎么分组的;数字出来没有附上“因为”,所以人类得自己找原因,在那个微小的瞬间,有时会多想一想。
这些没有一个被设计成安全网,但全部起到了安全网的作用。
今天的对话式分析(大部分版本)把这三点全去掉了:聚合是模型内部选的,不是你可以追问的人;查询一闪而过就不见了;答案自带“因为”,流畅而确定,人类原本会停顿的那个瞬间被自动跳过了。
说清楚:这不是必然的。一个设计良好的系统可以展示自己的SQL、血缘、运行的测试。很多现在的工具就是不做,这是产品选择,不是自然法则。后面我们会回到这一点。
四种陷阱里有一种情况,AI不仅削弱了防御,还扳动了扳机:手工分析通常只测几个假设,自动化洞察引擎测几千个。多重比较问题会恶化几个数量级。
所以诚实的说法不是AI导致了这些错误。更准确:错误一直都有可能发生。保护你的摩擦消失了,而一段自信的原因被铆在摩擦原来的位置上。陷阱相同,护栏没了。
先给精确版本,因为模糊版本会让人陷入麻烦。你的数据不包含因果“为什么”的答案。不包含。数据集只记录了“什么和什么同时发生”。收入下降,三个变量跟着动。但“跟着动”是相关性,数字的性质。因果关系是产生这些数字的世界结构:哪个变量实际上推动了哪个。那个结构无法从相关性中恢复。相关性是它产生的。
这不是AI时代的新问题。它是计量经济学最古老的结论之一。1944年Haavelmo奠定了该领域的概率基础时,核心问题就已经被命名:识别问题——同一个观测分布可以由不同甚至矛盾的因果结构产生。同样的数字,不同的原因。仅凭分布无法区分它们。这个领域的逻辑是单向的:假设加上数据推出结论。拿走假设,数据本身对“为什么”保持沉默。
有人觉得模型更大、数据更多,总能搞定。对于这个问题,搞不定。这是可证明的。
Pearl的因果之梯有三层:看到(什么和什么相关)、做到(如果我干预会发生什么)、想象(为什么发生,如果不发生会怎样)。观测性仪表板数据活在底层。真正的因果“为什么”活在最顶层。
因果层级定理把这个间隔形式化了:在绝大多数情况下,低层级的数据不足以回答高层级的问题,除非从外部引入假设。这个定理已被证明对神经网络也成立。任意大、任意强的网络,仍然不能从观测数据中推导出干预的效果。Pearl说得很直白:一个只使用这类数据且没有因果模型的系统,永远无法回答关于干预的问题。
注意那个能保持诚实的限定条件,它很重要:这个论断只针对纯观测数据。做实验、找自然实验、用有效工具变量,因果信息就可以进入分析。时间顺序也有帮助,但有限:知道原因先于结果可以排除反向因果关系,但本身不能识别效应。这正是经济学中可信性革命的精神——2021年诺贝尔奖认可的自然实验传统及其工具箱:实验、工具变量、双重差分、断点回归。这些东西没有一个是通过无假设、无设计的相关性来读因果的。假设来自一个懂业务领域的人,而且很多假设无法从数据中检验。缺少的是结构,不是尺度。
但工具确实自信地回答了因果问题。所以实际发生了什么?
工具默默自己补充了缺少的假设,然后呈现结果,就好像它是直接从数据读出来的。
这正是经济学家Charles Manski命名的“可信度递减定律”:推断的可信度随着所维持的假设强度而递减。一个干净、单一数字、自信的“为什么”之所以可能,只是因为做了很强的假设。假设越强,结果越不可信。自信和可信度朝相反方向移动。Manski还给失效模式起了个名字,他有一篇论文的标题就叫“难以置信的确信”(Incredible Certitude)。
一个因果问题的诚实输出很少是一句干净的话。它是一个有边界的声明,附带了条件。“如果我们做这个假设,效果大致在多少到多少之间。”不如“收入下滑是因为定价”那么令人满意,但那是唯一没有悄悄夸大自己知道多少的版本。
因果推断是一门真实的学科。人们每天都在用数据估计因果。为什么工具就不能做呢?
它可以,在三个条件下。每一个条件都证明了核心观点,而不是绕开它。
这个模式就是整个论点:每一条通往因果答案的合法路径都经过来自数字之外的假设——人、方法的细则、或模型的训练。不存在第四条路,让原因独自走出数据。
但这里有个转折,悲观的版本会错过。同一套能扩大错误的能力,也能捕获错误。把它转向,模型就可以成为审计者而不是肇事者。它可以在你对聚合采取行动之前标记出辛普森逆转;它可以警告你刚刚做了一个结果筛选;它可以应用手工分析师忘记的多重比较校正;它可以在声明的因果图上追踪碰撞器路径;它可以拒绝说“导致”,而先让你命名目标量;它可以提出真正能识别出你猜测的效应的实验。
所以真正的对比从来不是人类判断对抗AI,而是无控制的生成对抗展示了自身工作的AI。正确做事的工具会展示它的假设;让你印象深刻的工具则藏起它们。
修复方案不是问更少问题。访问是好的,请保留。修复方案是把判断力放回问题经过的路径,并构建系统让判断力有骨头可依。
首先三个原则,然后是具体的五层架构。
原则一:假设被写下来,而不是被埋藏。 如果回答“为什么收入下滑”需要假设价格驱动需求(而非反过来)、各细分群体可比、没有未测量的东西同时影响两者,那么这些假设就是答案的承重结构。它们应该公开,让人可以挑战。
原则二:答案带着它的不确定性和条件,而不只是赤裸裸的判决。 有时是带有可信置信区间的点估计;在更弱的假设下,是一个更宽的识别区间。不管哪种,数字应该带着产生它的假设,而不是被剥离干净。一个干净的数字没有上下文,不是更能干,只是在证据能支撑什么这件事上更不诚实。
原则三:人类留在检查点上。 不是写每条查询,而是站在判断重要的地方:注意到工具对结果做了筛选、聚合隐藏了反转、命名驱动因素是乘客。但人类审查是必要的,不是充分的。分析师也会错过混杂、p值操纵、和切割细分。真正的安全网不是一个有经验的怀疑者,而是围绕判断构建的系统:审查、溯源、测试、声明的角色、以及清楚的责任归属——谁在什么东西被称为原因时签字。
具体来说,这不是一个功能,而是一个五层栈:
所有这些都不奇特。它们是无聊的、可治理的脚手架,把流畅的猜测变成你可以审计的声明。这也是大部分真正工作所在的地方,所以每一层都值得单独写一篇。
在所有这些之下,只有一个标准:一个值得信赖的系统会让它答案背后的假设可见,并对它无法排除的范围保持诚实。其余的只会听上去很确定。
所以这是测试:下次工具告诉你某事为什么发生,问它一个问题——“你需要假设什么才能说出这个?”然后问:“你展示了你的假设,还是藏起来了?”
如果它答不上来,你得到的不是因果洞察,而是用没人选择、没人能看见的结构建造出来的一句自信的话。
这一切不是聊天机器人自己该想明白的。那个可治理的栈——语义层、因果元数据层、证据注册表、溯源、决策策略——是另一个主题,值得单独一篇。
访问已解决。判断才是现在的工作。赢得下一轮分析的公司,不会是最会提问的那家,而是建立了组织和系统、知道哪些声明值得怀疑、哪些需要审查、哪些需要新证据的那家——这样怀疑是默认的,而不是房间里恰好有一个怀疑者才得到的厚待。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断