当我们惊叹于大模型的智能时,背后真正的功臣可能是一款2017年的“老”算法——PPO。它通过“小步快跑、避免翻车”的策略,为冰冷的模型注入了“人性”。本文将拆解PPO的核心思想,探讨其为何成为大模型对齐的基石,并分析来自中国和海外的新算法如何挑战其王者地位。
当人们谈论ChatGPT或任何一个顶级大语言模型时,话题总是离不开千亿参数、海量数据和强大的算力。但一个经常被忽略的事实是,让这些模型从一个只会预测下一个词的“理科生”,变成能理解人类意图、懂得情理的“文科生”,其背后真正的“灵魂工程师”是一款诞生于2017年的强化学习算法——PPO(Proximal Policy Optimization)。
为什么一个七年前的算法,至今仍是大模型“人性化”改造工程的核心?答案在于它解决了一个根本问题:对齐(Alignment)。
一个未经对齐的大模型,就像一匹拥有无穷力量但野性难驯的马。它能写出莎士比亚风格的十四行诗,也可能生成有害或完全无用的内容。对齐的目标,就是给这匹野马套上缰绳,让它的行为符合人类的价值观和期望。这个过程,目前最主流的技术路径就是基于人类反馈的强化学习(RLHF),而PPO,正是这套复杂工程中最稳定、最可靠的“发动机”。
强化学习的本质,是通过“奖励”和“惩罚”来训练一个智能体(Agent)做出更好的决策。对于大模型来说,智能体就是模型本身,决策就是生成每一个词。但这个训练过程充满风险。
早期的策略梯度(Policy Gradient)算法,像一个情绪化的教练,看到一次好的表现就给予重赏,导致模型在更新参数时“用力过猛”,可能学到了一些偶然的、错误关联,导致整体性能突然崩溃。这在动辄需要数百万美元训练成本的大模型身上是不可接受的。
后来出现的TRPO算法虽然解决了稳定性问题,但它引入了复杂的数学约束,计算成本极高,好比给赛车安装了一套无比精密但也无比笨重的安全系统,严重影响了速度。
PPO的聪明之处在于它找到了一种极致的平衡。它的核心思想可以概括为:在信任的范围内,尽可能地学习。
它引入了一个“裁剪(Clipping)”机制。简单来说,PPO在每次更新模型参数时,都会先计算新策略与旧策略的差异。如果这个差异过大,超出了一个预设的“信任区域”(比如差异不超过20%),PPO就会强制“裁剪”掉超出的部分。
这就像一个经验丰富的司机在教新手开车。他不会允许新手猛打方向盘,而是要求每次只做微调。这种“小步快跑、避免翻车”的策略,既保证了学习的稳定性,又比TRPO等前辈算法简单得多,计算效率极高,完美契合了训练大模型时对稳定和效率的双重需求。

PPO通常采用一种名为“演员-评论家(Actor-Critic)”的架构来实现其目标。这个模式非常直观:
训练时,“演员”做出一个动作后,“评论家”会立刻打分。这个分数帮助“演员”判断,刚才的动作是比预期的好,还是差。这种即时反馈,远比等到整个回答生成完再判断要高效得多,极大地降低了学习过程中的“噪声”。
然而,这种模式的优雅背后也隐藏着成本。为了得到“评论家”的即时反馈,我们需要额外训练和维护一个模型,这在资源上是一个不小的开销。这也为后续的算法创新留下了空间。
正是在“评论家”模型的成本和效率问题上,中国的AI公司展现了务实的创新能力。来自DeepSeek AI的GRPO算法,就是对PPO的一次巧妙“瘦身”。
GRPO的核心洞察是:我们真的需要一个复杂的神经网络来扮演“评论家”吗?
它的解决方案是,用简单的统计方法取而代之。在训练时,GRPO让模型针对同一个问题生成一个小组的多个回答(比如64个)。然后,它计算这个小组所有回答的平均奖励分数,并以此作为“基准线(Baseline)”。
对于小组中的任何一个回答,它的“优势”不再由“评论家”模型来判断,而是直接通过它自身的奖励分数与这个“平均分”的比较得出。高于平均分就是好回答,反之则差。
这种方法不仅省去了训练“评论家”模型的巨大开销,还创造了一种动态的“自我竞争”机制。随着模型越来越好,小组的平均分水涨船高,迫使模型必须不断超越过去的自己。这是一种典型的工程智慧:用更简单、更经济的手段,达到了同样甚至更好的效果。
PPO虽然强大,但并非没有挑战者。直接偏好优化(DPO)的出现,更是从根本上动摇了RLHF的整个流程。
DPO认为,从人类偏好数据(比如回答A比回答B好)到奖励模型,再到强化学习,这个链条太长、太复杂。它通过精巧的数学推导,成功地将这个复杂的强化学习问题,直接转化成了一个简单的监督学习问题。
不再需要奖励模型,不再需要“演员-评论家”框架,也不再有复杂的PPO训练循环。DPO直接利用偏好数据来微调大模型,过程更简单,训练更稳定。
目前来看,PPO和DPO各有千秋。在处理复杂任务和探索性更强的场景中,PPO依然凭借其鲁棒性占据优势。而对于目标明确的偏好对齐任务,DPO则以其高效和简洁成为热门选择。
从PPO的经久不衰,到GRPO的务实创新,再到DPO的范式革命,我们看到的是AI领域在“如何让机器更好地为人类服务”这一核心命题上的持续探索。
PPO的成功,本质上是“稳定压倒一切”这一工程哲学的胜利。在与动辄“崩溃”的AI模型打交道的过程中,可控、可预期的进步,远比偶尔的“灵光一闪”更有价值。尽管未来可能会有更高效的算法出现,但PPO所代表的这种稳健优化的思想,将继续作为AI对齐领域的基石,影响着未来更强大、更自主的智能体的诞生。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断