数据大门敞开，判断力还在门外

一个营销人员的提问，可能让整个公司走偏

营销人员对着分析工具打字：“为什么上个季度企业级客户收入下滑？”

工具返回一句话。干净、具体、充满自信。一个原因，明明白白。

营销人员把它复制到幻灯片里，幻灯片进了演示文稿，演示文稿摆到了决策者面前。没人追问答案从哪来——它自信、快速、就在那里，有什么好质疑的？

这是现在大多数BI厂商正在做的事：用自然语言对话取代技术门槛。你不需要懂表怎么联、图怎么看，直接说人话，答案就出来了。

但某样东西被落在了后面。

访问解锁了，判断没有。

现在人人都能获取答案，但分辨答案对错的能力并没有同步跟上。这两者从来都是不同的技能。过去，写SQL、读图表的技术门槛挡住了大多数人，也挡住了那些缺乏上下文去怀疑答案的人。那道门槛不是故意用来做安全网的，但它客观上起到了安全网的作用。

对话式分析拆掉了门槛，也拆掉了安全网。

于是现在，一个没有能力感知答案偏差的人提出了问题。答案听起来是完整的、最终的。中间没有分析师皱眉头、没有可供审阅的SQL、没有在说出“因为”之前的停顿。

三个从未同时出现的事情现在同时出现：完全访问、完全自信、零摩擦。每个单独看都无害，合在一起就是一台机器：将错误的推理快速转变成决策，快到没人能检查。

这台机器做的第一件事，就是悄悄抹平一个比任何东西都重要的区别。

每一个“为什么”都不相同

“为什么收入下滑”听起来是一个问题，实际上至少是五个，而且每个的答案含量完全不同。

分解：哪些部分加总成了下滑？价格、数量、产品组合？这是算术题，收入桥就能回答，直接从数据中来，不需要因果模型。
关联：哪些变量跟着下滑一起变动？数据也能回答，但和因果无关。
预测：哪些信号通常出现在这种下滑之前？这是预测问题，有用，仍不是因果。
因果：如果拉动某个杠杆，结果会变吗？到这里，数据本身不够了，你需要数据不携带的假设。
反事实：为什么是这次下滑，而不是没有发生的另一种情况？个体归因通常是最难的那个版本。

前三个问题，数据通常能正确回答。后两个不行，至少需要从外部引入结构。

问题是：工具用同样流畅的语调、同样的自信、同样的句式，回答了所有五个。干净分解和未经识别的因果主张看上去一模一样。你从输出里看不出自己拿到的是哪一个。

流畅性将五种不同的主张压扁成一段自信的话。这才是真正的危险。 本文其余部分，就是这种压扁之后会发生的事。

四种常见误导，同一个根源

一旦一个描述性或关联性的答案被误读为因果答案（这很容易发生），它会以四种众所周知的方式失效。没有一种很奇特，全都是从一片数据中读取相关性却不知道背后结构的产物。

一、混杂变量。 它点名的原因从来不是真正的原因，它只是个乘客。

工具报告说“重度功能使用”拉动了收入增长。说得通。大概率是错的。功能使用和收入同时上升，是因为你只看企业客户这个高价值群体。更深的问题是：没有因果模型，工具不知道一个变量扮演什么角色——原因、混杂、中介、代理？在原始相关性里它们长得一模一样。区分它们需要结构，而工具恰恰没有。

二、多重比较。 查够多次，总能看到点什么，哪怕什么都没有。

工具扫描数百个维度找“显著驱动因素”。5%的显著性水平下，每20次纯噪声检查就有1次偶然显著。扫描200个维度，平均会有10个假阳性，至少有一个几乎必定出现。业务维度通常高度相关，所以这个算术只是示意，但方向是确定的：扫描越多，噪音伪装成信号越多。标准的防御手段——Bonferroni校正、FDR控制——恰恰是自动扫描会跳过的，除非有人特意加上。工具不会把幸存者呈现为噪音，它呈现为发现，封装在干净的句子和彩色图表里。

三、辛普森悖论。 每个小组的趋势可能是一个方向，而总体的趋势却是相反的。

你这个月转化率下降了。工具标出它，解释它，建议修复。但每个渠道的转化都在上升：付费渠道、自然渠道、推荐渠道，全部上升。总体却下降，因为流量结构向低转化渠道倾斜了。哪个数字是真实的？两个都是。聚合视图和分渠道视图各自回答了不同的问题。工具默认选了聚合，当成答案，从不问你真正想问的是什么。

四、碰撞变量。 这个最奇怪。工具能找到一个在真实世界中并不存在的相关性，仅仅因为做了筛选。

假设两件独立的事情会让用户购买你的付费方案：低价格敏感度，或者重度使用。任一条件都足够。现在工具只看付费用户。在这群用户里，价格敏感度和使用量显得有关联。但在其他地方它们毫无关系。这种关联是筛选带来的伪影。问题在于下一步：把筛选组里找到的相关性解读为普遍规律或因果关系。而“只看流失用户”几乎是每一个“为什么”调查的第一步，所以这个最容易被踩中。

这四种没有一个算bug。它们是同一个失败穿了四件外套：一个系统读取相关性，却不知道背后的因果角色。每个都是数据不足以确定答案的地方，而工具默默地按照自己的默认把歧义解决了。

这些陷阱比AI古老

有人会说：这四种哪个是新的？辛普森悖论1951年就被命名了，碰撞变量（Berkson悖论）1946年，混杂变量和多重比较更早。你自己写GROUP BY一样会搞出辛普森悖论。手工做的仪表盘对这四种也没有免疫力。简单回归也一样：把特征叫“重要”，当成原因，就是穿上白大褂的混杂。

那AI到底多了什么？不是这些陷阱。陷阱一直都在。改变的是那些原来能拦住陷阱的东西。

回想一下数据还很难获取的年代，什么挡在错误数字和决策之间：分析师有意识地选择聚合方式，你可以问他为什么这么选；查询写在纯文本里，你可以看它是怎么分组的；数字出来没有附上“因为”，所以人类得自己找原因，在那个微小的瞬间，有时会多想一想。

这些没有一个被设计成安全网，但全部起到了安全网的作用。

今天的对话式分析（大部分版本）把这三点全去掉了：聚合是模型内部选的，不是你可以追问的人；查询一闪而过就不见了；答案自带“因为”，流畅而确定，人类原本会停顿的那个瞬间被自动跳过了。

说清楚：这不是必然的。一个设计良好的系统可以展示自己的SQL、血缘、运行的测试。很多现在的工具就是不做，这是产品选择，不是自然法则。后面我们会回到这一点。

四种陷阱里有一种情况，AI不仅削弱了防御，还扳动了扳机：手工分析通常只测几个假设，自动化洞察引擎测几千个。多重比较问题会恶化几个数量级。

所以诚实的说法不是AI导致了这些错误。更准确：错误一直都有可能发生。保护你的摩擦消失了，而一段自信的原因被铆在摩擦原来的位置上。陷阱相同，护栏没了。

为什么观测数据本身不能识别因果关系

先给精确版本，因为模糊版本会让人陷入麻烦。你的数据不包含因果“为什么”的答案。不包含。数据集只记录了“什么和什么同时发生”。收入下降，三个变量跟着动。但“跟着动”是相关性，数字的性质。因果关系是产生这些数字的世界结构：哪个变量实际上推动了哪个。那个结构无法从相关性中恢复。相关性是它产生的。

这不是AI时代的新问题。它是计量经济学最古老的结论之一。1944年Haavelmo奠定了该领域的概率基础时，核心问题就已经被命名：识别问题——同一个观测分布可以由不同甚至矛盾的因果结构产生。同样的数字，不同的原因。仅凭分布无法区分它们。这个领域的逻辑是单向的：假设加上数据推出结论。拿走假设，数据本身对“为什么”保持沉默。

尺度救不了因果推断

有人觉得模型更大、数据更多，总能搞定。对于这个问题，搞不定。这是可证明的。

Pearl的因果之梯有三层：看到（什么和什么相关）、做到（如果我干预会发生什么）、想象（为什么发生，如果不发生会怎样）。观测性仪表板数据活在底层。真正的因果“为什么”活在最顶层。

因果层级定理把这个间隔形式化了：在绝大多数情况下，低层级的数据不足以回答高层级的问题，除非从外部引入假设。这个定理已被证明对神经网络也成立。任意大、任意强的网络，仍然不能从观测数据中推导出干预的效果。Pearl说得很直白：一个只使用这类数据且没有因果模型的系统，永远无法回答关于干预的问题。

注意那个能保持诚实的限定条件，它很重要：这个论断只针对纯观测数据。做实验、找自然实验、用有效工具变量，因果信息就可以进入分析。时间顺序也有帮助，但有限：知道原因先于结果可以排除反向因果关系，但本身不能识别效应。这正是经济学中可信性革命的精神——2021年诺贝尔奖认可的自然实验传统及其工具箱：实验、工具变量、双重差分、断点回归。这些东西没有一个是通过无假设、无设计的相关性来读因果的。假设来自一个懂业务领域的人，而且很多假设无法从数据中检验。缺少的是结构，不是尺度。

自信就是破绽

但工具确实自信地回答了因果问题。所以实际发生了什么？

工具默默自己补充了缺少的假设，然后呈现结果，就好像它是直接从数据读出来的。

这正是经济学家Charles Manski命名的“可信度递减定律”：推断的可信度随着所维持的假设强度而递减。一个干净、单一数字、自信的“为什么”之所以可能，只是因为做了很强的假设。假设越强，结果越不可信。自信和可信度朝相反方向移动。Manski还给失效模式起了个名字，他有一篇论文的标题就叫“难以置信的确信”（Incredible Certitude）。

一个因果问题的诚实输出很少是一句干净的话。它是一个有边界的声明，附带了条件。“如果我们做这个假设，效果大致在多少到多少之间。”不如“收入下滑是因为定价”那么令人满意，但那是唯一没有悄悄夸大自己知道多少的版本。

但AI就不能好好做吗？

因果推断是一门真实的学科。人们每天都在用数据估计因果。为什么工具就不能做呢？

它可以，在三个条件下。每一个条件都证明了核心观点，而不是绕开它。

给模型提供结构。 给它一个因果图、假设、真实的识别策略，它会做推断，通常比人类更快更仔细。但因果图来自人，工具提供数学。使答案可信的东西是从数据外部带进来的。
在额外假设下让它自己发现结构。 存在一些方法能从观测数据中恢复部分因果图，但它们能工作的前提是引入了数据无法验证的假设——哪些影响不存在、噪音是什么形状。放松这些，结构就散了。
利用模型已经知道的东西。 语言模型从训练中携带因果知识。问它海拔影响气温还是相反，它能在没有数据的情况下正确回答，已知因果对上的准确率超过90%。令人印象深刻，直到你看清它的本质：模型在检索人类已经写下的事实，而不是推断任何关于你业务的东西。它不知道你的促销是否导致了你的流失，因为没人写下这个让它回忆。而当它“知道”一个因果时，那个知识就是外部假设，和前面两种情况一样。

这个模式就是整个论点：每一条通往因果答案的合法路径都经过来自数字之外的假设——人、方法的细则、或模型的训练。不存在第四条路，让原因独自走出数据。

但这里有个转折，悲观的版本会错过。同一套能扩大错误的能力，也能捕获错误。把它转向，模型就可以成为审计者而不是肇事者。它可以在你对聚合采取行动之前标记出辛普森逆转；它可以警告你刚刚做了一个结果筛选；它可以应用手工分析师忘记的多重比较校正；它可以在声明的因果图上追踪碰撞器路径；它可以拒绝说“导致”，而先让你命名目标量；它可以提出真正能识别出你猜测的效应的实验。

所以真正的对比从来不是人类判断对抗AI，而是无控制的生成对抗展示了自身工作的AI。正确做事的工具会展示它的假设；让你印象深刻的工具则藏起它们。

因果基础架构长什么样

修复方案不是问更少问题。访问是好的，请保留。修复方案是把判断力放回问题经过的路径，并构建系统让判断力有骨头可依。

首先三个原则，然后是具体的五层架构。

原则一：假设被写下来，而不是被埋藏。 如果回答“为什么收入下滑”需要假设价格驱动需求（而非反过来）、各细分群体可比、没有未测量的东西同时影响两者，那么这些假设就是答案的承重结构。它们应该公开，让人可以挑战。

原则二：答案带着它的不确定性和条件，而不只是赤裸裸的判决。 有时是带有可信置信区间的点估计；在更弱的假设下，是一个更宽的识别区间。不管哪种，数字应该带着产生它的假设，而不是被剥离干净。一个干净的数字没有上下文，不是更能干，只是在证据能支撑什么这件事上更不诚实。

原则三：人类留在检查点上。 不是写每条查询，而是站在判断重要的地方：注意到工具对结果做了筛选、聚合隐藏了反转、命名驱动因素是乘客。但人类审查是必要的，不是充分的。分析师也会错过混杂、p值操纵、和切割细分。真正的安全网不是一个有经验的怀疑者，而是围绕判断构建的系统：审查、溯源、测试、声明的角色、以及清楚的责任归属——谁在什么东西被称为原因时签字。

具体来说，这不是一个功能，而是一个五层栈：

语义层：确定指标的含义——定义、粒度、连接方式、有效聚合。这是描述性的基础工作，在任何人问为什么变化之前先就数字是什么达成一致。
因果元数据层：对于特定的因果问题，记录变量之间的关系。这是新的部分。处理变量、结果、混杂、中介、碰撞器、代理：这些不是永久贴在列上的标签，而是相对于具体目标量、人群和时间跨度的角色。同一个变量在一个问题里是混杂，另一个问题里是中介。上面四种陷阱都是从系统分配了错误角色开始的。这一层就是公开声明角色，绑定到所问的问题。
证据注册表：对每个声明，记录它背后的识别策略、所依赖的设计和假设、诊断检验、以及适用边界。实验和自然实验也依赖假设，区别在于策略和证据强度，而这正是值得记录的东西。
查询与推断溯源：SQL、数据快照、群体、运行的测试、应用的校正、报告的区间。和“生成即消失”正好相反。
决策策略：什么时候系统可以只做描述性回答，什么时候可以称某物为“预测性驱动因素”或“分解贡献因素”而不是笼统的“驱动因素”，什么时候可以说“导致”，什么时候必须停止并转给人类或建议做实验。

所有这些都不奇特。它们是无聊的、可治理的脚手架，把流畅的猜测变成你可以审计的声明。这也是大部分真正工作所在的地方，所以每一层都值得单独写一篇。

在所有这些之下，只有一个标准：一个值得信赖的系统会让它答案背后的假设可见，并对它无法排除的范围保持诚实。其余的只会听上去很确定。

在相信答案之前要问的问题

所以这是测试：下次工具告诉你某事为什么发生，问它一个问题——“你需要假设什么才能说出这个？”然后问：“你展示了你的假设，还是藏起来了？”

如果它答不上来，你得到的不是因果洞察，而是用没人选择、没人能看见的结构建造出来的一句自信的话。

这一切不是聊天机器人自己该想明白的。那个可治理的栈——语义层、因果元数据层、证据注册表、溯源、决策策略——是另一个主题，值得单独一篇。

访问已解决。判断才是现在的工作。赢得下一轮分析的公司，不会是最会提问的那家，而是建立了组织和系统、知道哪些声明值得怀疑、哪些需要审查、哪些需要新证据的那家——这样怀疑是默认的，而不是房间里恰好有一个怀疑者才得到的厚待。

一个营销人员的提问，可能让整个公司走偏

营销人员对着分析工具打字：“为什么上个季度企业级客户收入下滑？”

工具返回一句话。干净、具体、充满自信。一个原因，明明白白。

这是现在大多数BI厂商正在做的事：用自然语言对话取代技术门槛。你不需要懂表怎么联、图怎么看，直接说人话，答案就出来了。

但某样东西被落在了后面。

访问解锁了，判断没有。

对话式分析拆掉了门槛，也拆掉了安全网。

这台机器做的第一件事，就是悄悄抹平一个比任何东西都重要的区别。

每一个“为什么”都不相同

“为什么收入下滑”听起来是一个问题，实际上至少是五个，而且每个的答案含量完全不同。

分解：哪些部分加总成了下滑？价格、数量、产品组合？这是算术题，收入桥就能回答，直接从数据中来，不需要因果模型。
关联：哪些变量跟着下滑一起变动？数据也能回答，但和因果无关。
预测：哪些信号通常出现在这种下滑之前？这是预测问题，有用，仍不是因果。
因果：如果拉动某个杠杆，结果会变吗？到这里，数据本身不够了，你需要数据不携带的假设。
反事实：为什么是这次下滑，而不是没有发生的另一种情况？个体归因通常是最难的那个版本。

前三个问题，数据通常能正确回答。后两个不行，至少需要从外部引入结构。

流畅性将五种不同的主张压扁成一段自信的话。这才是真正的危险。 本文其余部分，就是这种压扁之后会发生的事。

四种常见误导，同一个根源

一、混杂变量。 它点名的原因从来不是真正的原因，它只是个乘客。

二、多重比较。 查够多次，总能看到点什么，哪怕什么都没有。

三、辛普森悖论。 每个小组的趋势可能是一个方向，而总体的趋势却是相反的。

四、碰撞变量。 这个最奇怪。工具能找到一个在真实世界中并不存在的相关性，仅仅因为做了筛选。

这些陷阱比AI古老

那AI到底多了什么？不是这些陷阱。陷阱一直都在。改变的是那些原来能拦住陷阱的东西。

这些没有一个被设计成安全网，但全部起到了安全网的作用。

四种陷阱里有一种情况，AI不仅削弱了防御，还扳动了扳机：手工分析通常只测几个假设，自动化洞察引擎测几千个。多重比较问题会恶化几个数量级。

为什么观测数据本身不能识别因果关系

尺度救不了因果推断

有人觉得模型更大、数据更多，总能搞定。对于这个问题，搞不定。这是可证明的。

自信就是破绽

但工具确实自信地回答了因果问题。所以实际发生了什么？

工具默默自己补充了缺少的假设，然后呈现结果，就好像它是直接从数据读出来的。

但AI就不能好好做吗？

因果推断是一门真实的学科。人们每天都在用数据估计因果。为什么工具就不能做呢？

它可以，在三个条件下。每一个条件都证明了核心观点，而不是绕开它。

给模型提供结构。 给它一个因果图、假设、真实的识别策略，它会做推断，通常比人类更快更仔细。但因果图来自人，工具提供数学。使答案可信的东西是从数据外部带进来的。
在额外假设下让它自己发现结构。 存在一些方法能从观测数据中恢复部分因果图，但它们能工作的前提是引入了数据无法验证的假设——哪些影响不存在、噪音是什么形状。放松这些，结构就散了。
利用模型已经知道的东西。 语言模型从训练中携带因果知识。问它海拔影响气温还是相反，它能在没有数据的情况下正确回答，已知因果对上的准确率超过90%。令人印象深刻，直到你看清它的本质：模型在检索人类已经写下的事实，而不是推断任何关于你业务的东西。它不知道你的促销是否导致了你的流失，因为没人写下这个让它回忆。而当它“知道”一个因果时，那个知识就是外部假设，和前面两种情况一样。

因果基础架构长什么样

修复方案不是问更少问题。访问是好的，请保留。修复方案是把判断力放回问题经过的路径，并构建系统让判断力有骨头可依。

首先三个原则，然后是具体的五层架构。

具体来说，这不是一个功能，而是一个五层栈：

语义层：确定指标的含义——定义、粒度、连接方式、有效聚合。这是描述性的基础工作，在任何人问为什么变化之前先就数字是什么达成一致。
因果元数据层：对于特定的因果问题，记录变量之间的关系。这是新的部分。处理变量、结果、混杂、中介、碰撞器、代理：这些不是永久贴在列上的标签，而是相对于具体目标量、人群和时间跨度的角色。同一个变量在一个问题里是混杂，另一个问题里是中介。上面四种陷阱都是从系统分配了错误角色开始的。这一层就是公开声明角色，绑定到所问的问题。
证据注册表：对每个声明，记录它背后的识别策略、所依赖的设计和假设、诊断检验、以及适用边界。实验和自然实验也依赖假设，区别在于策略和证据强度，而这正是值得记录的东西。
查询与推断溯源：SQL、数据快照、群体、运行的测试、应用的校正、报告的区间。和“生成即消失”正好相反。
决策策略：什么时候系统可以只做描述性回答，什么时候可以称某物为“预测性驱动因素”或“分解贡献因素”而不是笼统的“驱动因素”，什么时候可以说“导致”，什么时候必须停止并转给人类或建议做实验。

在所有这些之下，只有一个标准：一个值得信赖的系统会让它答案背后的假设可见，并对它无法排除的范围保持诚实。其余的只会听上去很确定。

在相信答案之前要问的问题

如果它答不上来，你得到的不是因果洞察，而是用没人选择、没人能看见的结构建造出来的一句自信的话。

一个营销人员的提问，可能让整个公司走偏

每一个“为什么”都不相同

四种常见误导，同一个根源

这些陷阱比AI古老

为什么观测数据本身不能识别因果关系

尺度救不了因果推断

自信就是破绽

但AI就不能好好做吗？

因果基础架构长什么样

在相信答案之前要问的问题

想了解 AI 如何助力您的企业？

24小时热榜

惠普与OpenAI达成Frontier战略合作

美国禁了最强AI模型，日本用路由器绕过

英伟达在华AI芯片份额跌至8%，华为成主导

塔塔电子遭勒索，iPhone 18 Pro 数据泄露

谷歌向美国用户免费开放 Gemini 个性化图像生成

微调LLM当考官：Prometheus、JudgeLM等自动评测方案解析

Claude Code Agent 真相：子代理并非加强版技能

CRISPR疗法在5岁患儿中展现希望

免费获取 AI 落地指南

一个营销人员的提问，可能让整个公司走偏

每一个“为什么”都不相同

四种常见误导，同一个根源

这些陷阱比AI古老

为什么观测数据本身不能识别因果关系

尺度救不了因果推断

自信就是破绽

但AI就不能好好做吗？

因果基础架构长什么样

在相信答案之前要问的问题

想了解 AI 如何助力您的企业？

24小时热榜

惠普与OpenAI达成Frontier战略合作

美国禁了最强AI模型，日本用路由器绕过

英伟达在华AI芯片份额跌至8%，华为成主导

塔塔电子遭勒索，iPhone 18 Pro 数据泄露

谷歌向美国用户免费开放 Gemini 个性化图像生成

微调LLM当考官：Prometheus、JudgeLM等自动评测方案解析

Claude Code Agent 真相：子代理并非加强版技能

CRISPR疗法在5岁患儿中展现希望

免费获取 AI 落地指南