一篇短文,旨在更新关于RFT观点的时效性,文章未引入新观点。
此前在2025年第一季度,作者曾发表一系列文章,探讨RFT的实践及其价值。
尽管此后作者转向其他领域,但这不意味着对RFT前景的看法发生改变。
目前,RFT在整个应用层面的实践成功率依然不高。这主要是因为RFT对基础设施的要求更高,试用场景的选择需要更深入的认知,以及需要调整的超参数更多,其门槛远高于SFT。
然而,作为目前少数几种核心解决方案之一,RFT的价值仍不容忽视,尤其对于大型组织(指单个业务单元内,单一细分岗位员工规模达到100人以上)而言。尽管这类组织在获取首个成功案例时面临较大挑战,但其具备投入资源以获取示范性案例的能力。
据观察,RFT被低估的判断预计在未来一年内仍将保持有效。
一些其他观察
从LLM模型用户的角度来看,目前海外前沿模型厂商对RL后训练(RL post-training)的调教已进入第二阶段,重点优化了推理令牌(reasoning token)的数量。已有安全报告指出,GPT-5模型的“思考过程”开始出现非人类语言的现象,这被认为是(暴力)压缩推理令牌的副作用。
交流与合作
如需交流讨论、参与相关讨论群或建立合作,请通过微信联系,详情请点击 ->专栏简介 及 联系方式 2024。
本文于2025年11月5日首发于微信公众号。
