最大似然估计其实很简单：硬币的秘密

一句话说透

最大似然估计，就是挑出那个能让你的数据看起来最不意外的解释。

就这一句。下面所有的内容都是围着这句话转。

你有数据：七次正面，三次反面。你有一堆可能的解释：硬币是公平的？硬币偏向正面70%？硬币被粘住了永远正面？最大似然就是挨个试这些解释，问一个问题：在这个解释下，我的数据有多“正常”？

公平硬币也能掷出7次正面，概率虽然小但可能。但一枚70%偏向正面的硬币，让这个结果显得稀松平常，就像周二一样普通。你的直觉会倾向那个更平常的解释——恭喜，直觉就是最大似然。

最佳比喻：迟到侦探

你是个侦探，总在案发后到达现场。你没看到发生了什么，只看到现场：碎掉的灯、泥脚印、没叫的狗。从这些痕迹里，你逆向推理出最可信的故事。你选的不是犯罪本身，而是那个最容易留下这些痕迹的嫌疑人。

硬币已经掷完，数据已成事实。你迟到现场，指着最能匹配证据的解释。

两个容易被搞混的词：概率 vs. 似然

日常说话里它们差不多，但统计学里是两种不同的活。

问题	概率	似然
什么固定	规则（硬币）	数据（掷出的结果）
什么未知	数据	规则
方向	规则 → 数据	数据 → 规则
你的角色	导演	侦探

概率：你知道硬币是公平的，预测会出现几个正面。似然：你已经看到了7正3反，反过来猜这枚硬币到底是什么偏向。

概率vs似然

真的算一下硬币

假设硬币有一个隐藏旋钮，设定正面概率 p。p=0.5 公平，p=0.7 偏向正面。我们看不到旋钮，这就是问题。统计上管它叫参数，其实就是宇宙设置的某个旋钮，然后藏了起来。

先猜 p=0.5: 每次正面概率0.5，反面0.5，10次独立掷，总概率 = 0.5^10 ≈ 0.000977

再猜 p=0.7: 正面0.7，反面0.3，总概率 = 0.7^7 × 0.3^3 ≈ 0.00222

0.00222 比 0.000977 大一倍多。说明7正3反在70%偏向的硬币下更“不意外”。侦探的心在往这边偏。

两个硬币比较

试遍所有可能

旋钮是连续的，我们可以试所有 p 值，画出一条似然曲线。

似然曲线

山顶在 p=0.7 处。那就是最大似然估计——让数据最不意外的那个解释。对于硬币，它就是正面次数除以总掷数：7/10=0.7。

对数技巧：唯一需要记住的数学招数

乘十个小于1的数已经很小了，如果是上万条数据，计算机会因为数值下溢直接归零。解法：对似然取对数，把乘法变成加法。

对数把乘法变成加法。

取对数后山顶位置不变，但计算稳定多了。

对数似然曲线

永远可用的四步法

选一个带旋钮的模型：比如硬币的 p，或者正态分布的均值和标准差。
写出似然函数：把每个数据点的概率乘起来。
取对数：变成求和。
找山顶：求使对数似然最大的旋钮值。可以求导置零（简单情形）或让计算机爬坡。

四步法流程图

Python 实现一下

import numpy as np

flips = np.array([1, 1, 0, 1, 1, 0, 1, 1, 1, 0])
heads, total = flips.sum(), flips.size

def log_likelihood(p):
    return heads * np.log(p) + (total - heads) * np.log(1 - p)

candidate_p = np.linspace(0.001, 0.999, 1000)
scores = log_likelihood(candidate_p)
best_p = candidate_p[np.argmax(scores)]
print(round(best_p, 3))  # 输出 0.7

用优化库更高效：最小化负对数似然（机器学习里常用的技巧）。

from scipy.optimize import minimize_scalar

def neg_log_likelihood(p):
    return -(heads * np.log(p) + (total - heads) * np.log(1 - p))

result = minimize_scalar(neg_log_likelihood, bounds=(0.001, 0.999), method="bounded")
print(round(result.x, 3))  # 输出 0.7

扩展到正态分布：平均数其实也是MLE

对于身高这种连续数据，假设它服从正态分布。最大似然估计下，最可能的均值就是样本的平均数，最可能的标准差就是样本标准差。你初中就会算平均数——实际上你早就在做最大似然估计了。

机器学习的秘密引擎

最大似然和机器学习里的“损失函数”是同一个山的不同朝向。最大化对数似然 = 最小化负对数似然（loss）。

线性回归：在正态假设下，最小二乘法就是最大似然。
逻辑回归：用最大似然估计每个样本属于正类的概率。
手机键盘预测：基于海量文本用似然推理下一个词。

每个模型的训练，本质上都在爬一个高维的似然山坡。

硬币也会说谎：两个致命弱点

小数据： 只扔两次，两次正面，模型立刻宣布硬币100%正面。自信得离谱。
过拟合： 模型过度适配训练数据里的噪音，可能只记住答案，没学会规律。

但这不是说方法错了，而是你知道了工具什么时候该用，什么时候别用。

最后一句

最大似然估计，就是挑出那个能让你的数据看起来最不意外的解释。

你现在知道了“解释”是什么（隐藏的参数设置），“最不意外”怎么找（似然山顶），以及它怎样支撑着半个机器学习世界。

世界藏着它的旋钮，我们学着理智地、固执地、一步步推理回去。

结尾图：侦探和朋友庆祝

一句话说透

最大似然估计，就是挑出那个能让你的数据看起来最不意外的解释。

就这一句。下面所有的内容都是围着这句话转。

最佳比喻：迟到侦探

硬币已经掷完，数据已成事实。你迟到现场，指着最能匹配证据的解释。

两个容易被搞混的词：概率 vs. 似然

日常说话里它们差不多，但统计学里是两种不同的活。

问题	概率	似然
什么固定	规则（硬币）	数据（掷出的结果）
什么未知	数据	规则
方向	规则 → 数据	数据 → 规则
你的角色	导演	侦探

概率：你知道硬币是公平的，预测会出现几个正面。似然：你已经看到了7正3反，反过来猜这枚硬币到底是什么偏向。

概率vs似然

真的算一下硬币

先猜 p=0.5: 每次正面概率0.5，反面0.5，10次独立掷，总概率 = 0.5^10 ≈ 0.000977

再猜 p=0.7: 正面0.7，反面0.3，总概率 = 0.7^7 × 0.3^3 ≈ 0.00222

0.00222 比 0.000977 大一倍多。说明7正3反在70%偏向的硬币下更“不意外”。侦探的心在往这边偏。

两个硬币比较

试遍所有可能

旋钮是连续的，我们可以试所有 p 值，画出一条似然曲线。

似然曲线

山顶在 p=0.7 处。那就是最大似然估计——让数据最不意外的那个解释。对于硬币，它就是正面次数除以总掷数：7/10=0.7。

对数技巧：唯一需要记住的数学招数

乘十个小于1的数已经很小了，如果是上万条数据，计算机会因为数值下溢直接归零。解法：对似然取对数，把乘法变成加法。

对数把乘法变成加法。

取对数后山顶位置不变，但计算稳定多了。

对数似然曲线

永远可用的四步法

选一个带旋钮的模型：比如硬币的 p，或者正态分布的均值和标准差。
写出似然函数：把每个数据点的概率乘起来。
取对数：变成求和。
找山顶：求使对数似然最大的旋钮值。可以求导置零（简单情形）或让计算机爬坡。

四步法流程图

Python 实现一下

import numpy as np

flips = np.array([1, 1, 0, 1, 1, 0, 1, 1, 1, 0])
heads, total = flips.sum(), flips.size

def log_likelihood(p):
    return heads * np.log(p) + (total - heads) * np.log(1 - p)

candidate_p = np.linspace(0.001, 0.999, 1000)
scores = log_likelihood(candidate_p)
best_p = candidate_p[np.argmax(scores)]
print(round(best_p, 3))  # 输出 0.7

用优化库更高效：最小化负对数似然（机器学习里常用的技巧）。

from scipy.optimize import minimize_scalar

def neg_log_likelihood(p):
    return -(heads * np.log(p) + (total - heads) * np.log(1 - p))

result = minimize_scalar(neg_log_likelihood, bounds=(0.001, 0.999), method="bounded")
print(round(result.x, 3))  # 输出 0.7

扩展到正态分布：平均数其实也是MLE

机器学习的秘密引擎

最大似然和机器学习里的“损失函数”是同一个山的不同朝向。最大化对数似然 = 最小化负对数似然（loss）。

线性回归：在正态假设下，最小二乘法就是最大似然。
逻辑回归：用最大似然估计每个样本属于正类的概率。
手机键盘预测：基于海量文本用似然推理下一个词。

每个模型的训练，本质上都在爬一个高维的似然山坡。

硬币也会说谎：两个致命弱点

小数据： 只扔两次，两次正面，模型立刻宣布硬币100%正面。自信得离谱。
过拟合： 模型过度适配训练数据里的噪音，可能只记住答案，没学会规律。

但这不是说方法错了，而是你知道了工具什么时候该用，什么时候别用。

最后一句

最大似然估计，就是挑出那个能让你的数据看起来最不意外的解释。

你现在知道了“解释”是什么（隐藏的参数设置），“最不意外”怎么找（似然山顶），以及它怎样支撑着半个机器学习世界。

世界藏着它的旋钮，我们学着理智地、固执地、一步步推理回去。

结尾图：侦探和朋友庆祝

一句话说透

最佳比喻：迟到侦探

两个容易被搞混的词：概率 vs. 似然

真的算一下硬币

试遍所有可能

对数技巧：唯一需要记住的数学招数

永远可用的四步法

Python 实现一下

扩展到正态分布：平均数其实也是MLE

机器学习的秘密引擎

硬币也会说谎：两个致命弱点

最后一句

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic 发布 Claude Sonnet 5，智能体能力显著提升

Claude Science：专为科学家打造的AI工作台

MIT发现磁场增强的石墨烯超导态

一个姿态检测项目的踩坑实录

预览 GPT-5.6 Sol：新一代模型

OpenAI用流行病学方法修复18年C++漏洞

逃离线性陷阱：AI代理如何破解基础设施崩溃

OpenAI发布GeneBench-Pro：评估AI科研判断力新基准

免费获取 AI 落地指南

一句话说透

最佳比喻：迟到侦探

两个容易被搞混的词：概率 vs. 似然

真的算一下硬币

试遍所有可能

对数技巧：唯一需要记住的数学招数

永远可用的四步法

Python 实现一下

扩展到正态分布：平均数其实也是MLE

机器学习的秘密引擎

硬币也会说谎：两个致命弱点

最后一句

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic 发布 Claude Sonnet 5，智能体能力显著提升

Claude Science：专为科学家打造的AI工作台

MIT发现磁场增强的石墨烯超导态

一个姿态检测项目的踩坑实录

预览 GPT-5.6 Sol：新一代模型

OpenAI用流行病学方法修复18年C++漏洞

逃离线性陷阱：AI代理如何破解基础设施崩溃

OpenAI发布GeneBench-Pro：评估AI科研判断力新基准

免费获取 AI 落地指南