告别蛮力：AI的“自我怀疑”如何解锁大模型推理新范式

引言

大型语言模型（LLMs）在解决复杂的推理任务方面展现出日益强大的能力，例如应对**数学奥林匹克竞赛难题、科学问答以及多步骤逻辑谜题**[3,8]。然而，这些模型的性能是否已臻完美？尽管它们确实强大，但目前在测试阶段仍存在计算成本高昂且效率低下的问题[5,6]。为了应对这一挑战，**Meta AI** 的研究人员提出了一项创新解决方案，名为“**DeepConf**”，亦称“**深度置信推理（Deep Think with Confidence）**”[1]。

Contents

引言研究人员的早期尝试：利用内部不确定性信号置信度感知测试时间缩放：DeepConf 基于置信度的离线推理基于置信度的在线推理结论

多数投票下的“自洽性”挑战

实践中，这一问题究竟如何体现？可以设想一个拥有100名学生的教室，他们被要求在一个小时内解决一道复杂的奥林匹克数学难题。时间结束后，可以收集所有答案并进行投票——得票最多的答案“获胜”。

图片1：多数投票下的自洽性问题示意图

(来源：作者)

这正是大型语言模型（LLMs）中多数投票自洽性问题的工作原理[2,3]。模型并非只提供一个解决方案，而是探索数百条推理路径（例如，512个不同的分步解决方案），然后选择出现频率最高的答案。

在**AIME 2025数学基准测试**中，**Qwen3-8B**模型单次尝试（称作pass@1）的准确率约为**68%**，这相当于只采纳一名学生的答案。但如果为每个问题生成**512条推理轨迹**（称作conf@512）并采取多数投票结果，准确率将跃升至**82%**[1,4]。

这听起来很棒，对吗？然而，问题在于额外的511条轨迹会产生近**1亿个额外token**，并且更多的轨迹并非总能带来帮助；当低质量的解决方案在投票中占据主导时，性能有时会保持不变甚至下降[1,7,8]。换句话说，如果学生们只是随机猜测，那么全班的投票结果并不能反映出教室里最优秀的思考者[1]。

研究人员的早期尝试：利用内部不确定性信号

研究人员试图通过分析模型的内部不确定性信号来解决上述问题。这种内部不确定性信号，可以类比为每隔一段时间（例如每5分钟）检查学生是否正在按正确的小步骤进行解题。模型会查看每个token的概率分布，并计算其在特定时间点上的置信度或熵。如果模型具有高置信度或低熵（即分布集中且峰值高），则表明模型对其特定token的预测非常确定，反之亦然[1,11]。

通过整合整个推理轨迹中这些token级别的预测统计数据，可以评估解决方案的**“可信度”**。研究人员还可以在多数投票之前过滤掉低置信度的轨迹——就像忽略那些明显是猜测的学生答案一样。这样做能够**减少无效投票，提升结果的稳健性**[1]。

图片2：通过置信度过滤弱轨迹

(来源：作者)

然而，这些方法仍然是全局性的，并未完全解决效率问题[1,6,13]。

接下来，将探讨一些相关的数学概念，例如token熵、token置信度和轨迹置信度的工作原理[1,11]。

Token熵（Token Entropy）：

图片3：Token熵公式

(来源：作者)

这个熵值可以这样理解：**logPᵢ(j)**项表示了在第i个位置上token预测的“意外程度”，其中Pᵢ(j)是该token的概率。当概率为1时（模型完全确定，意外程度为0，没有不确定性），表明模型对该token预测的置信度极高。然后，取所有token熵的平均值，即可定义每个步骤或token预测的熵[1]。

Token置信度（Token Confidence）：

图片4：Token置信度公式

(来源：作者)

Token置信度衡量的是模型对每个token预测的确定程度（可以视为“反意外程度”指标）[1]。

平均轨迹置信度（Average Trace Confidence）：

图片5：平均轨迹置信度公式

(来源：作者)

在计算每个token的置信度时，这些置信度分数的平均值即代表了整个轨迹的置信度[1]。

置信度感知测试时间缩放：DeepConf

DeepConf进一步发展了这一理念，它并非简单地生成数百个解决方案然后进行投票[2,3,12]。该方法在生成过程中和生成之后都会考量模型的内部置信度信号。它能够动态地过滤掉低质量的推理轨迹，无论是实时进行（在线模式）还是在所有解决方案生成完毕后进行（离线模式）。DeepConf只保留最可信的推理路径，从而减少了不必要的计算浪费[1,6]。

那么结果如何呢？在AIME 2025测试中，采用GPT-OSS-120B模型的DeepConf@512实现了惊人的99.9%准确率。相比之下，纯多数投票的准确率为97.0%，而单次尝试（pass@1）仅达到91.8%。同时，与蛮力并行思考相比，DeepConf将token生成量**减少了高达84.7%**[1,6,7]。

在对基本概念有了清晰的理解后，现在将深入探讨这些置信度衡量指标的具体工作原理。

组置信度（Group Confidence）：

图片6：组置信度公式

(来源：作者)

Cₜ 依然代表token级别的置信度。组置信度（CGᵢ）可被视为对确定性的一种“局部放大”检查，其中|Gᵢ|表示重叠窗口内（例如1024或2048个token）前一个token的数量。这为我们提供了确定性的局部快照[1]。

底部10%组置信度（Bottom 10% Group Confidence）：

图片7：底部10%组置信度公式

(来源：作者)

当对组置信度分数进行排序并聚焦于底部10%时，实际上是在突出推理链中的最薄弱环节。如果这些步骤看起来不够稳固，就可以将其剔除以节省计算资源[1]。

尾部置信度（Tail Confidence）：

图片8：尾部置信度公式

(来源：作者)

尾部置信度概念简单直观；它计算的是模型对最后固定数量的token（例如2048个）的置信程度（检查“最后一公里”），这对于预测正确结论至关重要[1]。

DeepConf可以在两种模式下使用：离线模式和在线模式[1]。

基于置信度的离线推理

在离线模式下，无需反复调用模型或获取额外数据。此时，处理的只是已经生成好的轨迹。

其挑战在于如何从这些已有的轨迹中提炼出最可靠的答案。

在离线模式中，可以对结果轨迹进行简单投票（当存在大量噪声结果时可能失效），也可以采用置信度加权多数投票。后者通过计算轨迹的平均置信度值，并将其与该解决方案的出现次数相乘来决定权重[1,2]。

置信度过滤与投票：在投票之前，首先丢弃置信度最低的轨迹。即先根据置信度筛选轨迹（保留前n%的轨迹），然后再进行简单投票或加权置信度投票[1,9,10]。

可以根据需求选择合适的置信度指标，例如平均置信度、组置信度或尾部置信度[1,10,11]。

图片9：离线推理算法示意图

离线推理算法1（来源：Deep Think with Confidence[1]）

分步解释：

输入：

提示P：希望得到答案的问题或输入。

轨迹数量N：将生成的推理路径数量。

过滤阈值𝜂：用于筛选顶部轨迹的百分比。

置信度测量C(t)：用于计算轨迹置信度分数的任意方法[1]。

初始化：

创建一个空集合T。

创建一个空置信度集合C[1]。

生成轨迹：

对于从1到N的每次迭代：为提示P生成一条轨迹tᵢ。

计算置信度分数 Cᵢ = C(tᵢ)。

将（tᵢ, Cᵢ）对存储在T和C中[1]。

过滤高置信度轨迹：

从所有N条轨迹中，根据它们的置信度分数选择前η%的轨迹。

这会移除噪声或低质量轨迹，只保留强置信度的答案[1]。

投票：

可以为每个可能的答案a计算投票分数V(a)。

这可以是简单的计数或加权投票[1]。

选择最终答案：

选择投票分数最高的答案â[1]：

图片10：最终答案选择公式

(来源：作者)

图片11：置信度测量与离线置信度推理

置信度测量与离线置信度推理（来源：Deep Think with Confidence[1]）

基于置信度的在线推理

该算法能够即时生成轨迹，并在拥有足够证据时动态地测量置信度[1,5,14,15]。

算法描述：

图片12：在线推理算法2

在线推理算法2（来源：Deep Think with Confidence[1]）

分步解释：

1. 输入

提示P：待回答的问题。

轨迹预算B：希望生成的最大轨迹数量。

初始轨迹Nᵢₙᵢₜ：用于“预热”的起始轨迹池。

过滤阈值η：保留高置信度轨迹的数量百分比。

共识阈值τ：一个百分比值，表示当对多数答案有足够信心时可以停止生成[1]。

2. 离线预热

在在线生成之前：

使用Nᵢₙᵢₜ条轨迹运行算法1。

计算置信度阈值s：

取初始轨迹置信度分数的100-η百分位值。

这定义了token/组被考虑所需的最低置信度。

使用初始轨迹初始化轨迹集合T，并计算所有答案的初始投票值V(a)[1]。

图片13：离线预热阶段

(来源：作者)

确定初始多数答案â[1]。

3. 在线生成循环

当以下两个条件均成立时：

当前多数答案的置信度尚未达到足够水平：

图片14：在线生成循环条件1

(来源：作者)

且尚未超出轨迹预算|T|<B

→ 继续生成新的轨迹[1]：

4. 逐步生成轨迹

在生成轨迹t时：逐token生成。

在每个token i之后，计算该token/组的组置信度C_Gᵢ。

如果C_Gᵢ<s：停止生成该轨迹（置信度低）。

否则：将token i添加到轨迹t[1]。

5. 更新

将已完成的轨迹t添加到轨迹集合T。

计算轨迹置信度Cₜ。

更新所有答案的投票计数V(a)。

更新多数答案â[1]。

6. 终止

当满足以下任一条件时停止：

多数答案â达到的共识超过阈值τ。

或轨迹预算B已达到。

返回最终的多数答案â[1]。

图片15：DeepConf在线生成过程

DeepConf在线生成过程（来源：Deep Think with Confidence[1]）

这项算法体现了提前停止的艺术，从而节省了大量的计算和资源[1,5,6,7,13,14]。

结论

那么，这项研究的启示是什么？即使是AI领域中最“聪明”的“学生”，有时也需要一点“自我怀疑”才能真正闪耀。DeepConf展示了“自我怀疑”的强大力量。通过选择更智能、基于置信度的方法，而非蛮力计算，可以节省数百万计的计算资源。这就像将一场混乱的数学竞赛，转变为一支沉着冷静的专家解题团队。

随着AI不断学习如何带着置信度进行思考，正迈向一个未来：模型不仅更智能，也更经济，耗费更少的计算资源，减少错误，并以每个token提供更多的“脑力”。谁知道呢？也许有一天，您最喜爱的模型会成为您最节俭、最具自我意识的学习伙伴。在此之前，让持续思考如何更智能地工作，而不是更辛苦地工作。

参考文献

[1] Dayananda, A., Sivasubramanian, S., & Bartlett, P. (2024). Deep Think with Confidence: Confidence-Aware Test-Time Scaling for Better Alignment. arXiv preprint arXiv:2508.15260. 检索自 https://arxiv.org/pdf/2508.15260

[2] Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-consistency improves chain-of-thought reasoning in language models. arXiv preprint arXiv:2203.11171.

[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., & others. (2022). Chain-of-thought prompting elicits reasoning in large language models. In Advances in neural information processing systems (Vol. 35, pp. 24824–24837).

[4] Art of Problem Solving. (2025a). 2025 AIME I. https://artofproblemsolving.com/wiki/index.php/2025AIMEI. 访问日期：2025。

[5] OpenAI. (2024). OpenAI o1 system card. arXiv preprint arXiv:2412.16720.

[6] Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). Scaling LLM test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314.

[7] Brown, B., Juravsky, J., Ehrlich, R., Clark, R., Le, Q. V., Ré, C., & Mirhoseini, A. (2024). Large language monkeys: Scaling inference computation with repeated sampling. arXiv preprint arXiv:2407.21787.

[8] Chen, L., Davis, J. Q., Hanin, B., Bailis, P., Stoica, I., Zaharia, M., & Zou, J. (2024a). Are more LLM calls all you need? towards scaling laws of compound inference systems. https://arxiv.org/abs/2403.02419

[9] Aggarwal, P., Madaan, A., Yang, Y., et al. (2023). Let’s sample step by step: Adaptive consistency for efficient reasoning and coding with LLMs. arXiv preprint arXiv:2305.11860.

[10]Geng, J., Cai, F., Wang, Y., Koeppl, H., Nakov, P., & Gurevych, I. (2024). A survey of confidence estimation and calibration in large language models. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 6577–6595.

[11] Fadeeva, E., Rubashevskii, A., Shelmanov, A., Petrakov, S., Li, H., Mubarak, H.,… & Panov, M. (2024). Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification. arXiv preprint arXiv:2403.04696.

[12] Farquhar, S., Kossen, J., Kuhn, L., & Gal, Y. (2024). Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017), 625–630.

[13] Li, Y., Yuan, P., Feng, S., Pan, B., Wang, X., Sun, B.,… & Li, K. (2024). Escape sky-high cost: Early-stopping self-consistency for multi-step reasoning. arXiv preprint arXiv:2401.10480.

[14] Han, Z., Li, Z., Wang, Y., Guo, C., Song, R., He, J.,… & Chen, W. (2024). Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation. arXiv preprint arXiv:2410.02725.

[15]Fu, Y., Chen, J., Zhuang, Y., Fu, Z., Stoica, I., & Zhang, H. (2025). Reasoning without self-doubt: More efficient chain-of-thought through certainty probing. In the ICLR 2025 Workshop on Foundation Models in the Wild.

告别蛮力：AI的“自我怀疑”如何解锁大模型推理新范式

引言

多数投票下的“自洽性”挑战

研究人员的早期尝试：利用内部不确定性信号

置信度感知测试时间缩放：DeepConf

基于置信度的离线推理

基于置信度的在线推理

结论

参考文献

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

提升机器学习效率：项目管理、GPU优化与健康工作实践

RFT在应用层仍被低估：深度解析其现状、价值与未来机遇

AI产品成功的秘诀：用户直观交互与卓越工程化是关键

AIO Sandbox：为AI Agent打造一体化可定制的沙箱环境

分类

快速链接

引言

多数投票下的“自洽性”挑战

You Might Also Like

研究人员的早期尝试：利用内部不确定性信号

置信度感知测试时间缩放：DeepConf

基于置信度的离线推理

基于置信度的在线推理

结论

参考文献

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复