从二战美军轰炸机的弹孔分布,到印度学校操场上晕倒的学生,再到今天大模型的幻觉——这三个看似无关的故事背后,藏着同一个数学原理:贝叶斯定理。理解它,你就能看穿AI的自信从何而来。
二战期间,美军统计返航轰炸机的弹孔,发现机翼和机身弹孔密集,引擎几乎完好。军方高层据此决定加固机翼和机身。
但统计学家Abraham Wald问了一个关键问题:那些没回来的飞机呢?
引擎中弹的飞机大概率直接坠毁,根本没机会出现在统计样本里。所以,“引擎没弹孔”不是安全信号,而是死亡证明。
这个直觉,正好对应贝叶斯定理的核心:用“先验”校正“证据”,还原隐藏的真相。
贝叶斯定理公式如下(无需死记硬背,理解逻辑即可):
用大白话:你根据已有认知(先验),结合新看到的证据(数据),通过评估“证据在假设下出现的概率”(似然),更新你对事物的判断(后验)。
上世纪80年代印度,某学校老师发现:晕倒的学生中,70%早上吃过茄子。老师立刻认定茄子导致昏厥。
但问题在于:他没调查那些没晕倒的学生。在当时的印度,茄子是廉价主食,70%的学生早饭都吃茄子。
贝叶斯计算一下:
计算后验:P(晕倒 | 吃过茄子) = (70% × 1%) / 70% = 1% —— 和普通学生晕倒概率一模一样。茄子完全无辜。
老师犯了和美军相同的错误:忽略了没“中弹”(没晕倒)的数据。
你可能会问:这些几十年前的例子,跟今天的大模型有什么关系?
关系大了。
现在的机器学习模型,核心就是一行代码:model.fit(data)。
这个.fit函数的工作方式是:从历史数据中找模式。如果训练数据本身带有偏差(比如只收集了“返航的飞机”或“晕倒的学生”),模型就会像那位老师一样,把局部相关当全局因果。
举个例子:用“成功人士传记”训练一个生成简历的大模型。数据中90%的人毕业于名校、就职大厂。模型会得出结论——优秀简历=名校+大厂。然后它为你朋友生成简历时,可能自动加上“斯坦福毕业”,即使朋友根本没去过。
这不是bug,这是幸存者偏差的数学表达。
解决方法是:在.fit之前注入一个“先验”。
比如,对那个简历模型,我们可以在训练前告诉它:“先听着,名校毕业生在总人口中只占5%,所以别因为数据里名校多就盲目崇拜。”
这就是贝叶斯正则化的思想——用先验约束模型,让它不被表面假象牵着走。像Dropout、L1/L2正则化,本质上都是在给模型注入“合理的怀疑”。
大语言模型(LLM)本质是一个超大号的概率词曲生成器。它没有“事实”概念,只会根据海量训练文本的统计规律,预测下一个最可能的词。
它的训练数据来自互联网,而互联网上能留存下来的文本天然带“幸存者偏差”:爆款帖子、成功案例、重大事件多,平淡日常少。
所以,当你问一个冷门问题,模型可能会自信地编造答案——因为它用训练数据里最常见的模式(比如“名人通常毕业于名校”)来“填补”缺失信息。
就像Cobb在《盗梦空间》里警告的:永远不要用记忆造梦,否则你会分不清现实与幻觉。LLM正是用记忆(训练数据)造梦,它没有现实锚点。
每次看到AI的输出,不要盲目信任。问自己三个问题:
概率AI的强大不在于它100%正确,而在于它能精确量化自己有多不确定。
你看数据的方式,决定了你离真相有多远。
注:以上为作者系列文章,原文有完整链接。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断