DPO新应用：用模型自身错误优化OCR文本退化

AI 前沿2026年6月2日· 原作者：Hugging Face· 9 分钟阅读1 阅读

Hugging Face团队发现，直接偏好优化（DPO）不仅用于聊天对齐，还能有效降低结构化OCR任务中的文本退化率。通过将模型自身产生的重复循环输出作为拒绝样本，DPO在五个模型家族中平均降低59.4%的退化率，弥补了监督微调的结构性局限。

今年4月，Dharma AI 团队发布了专门处理结构化OCR的模型 DharmaOCR（可在 Hugging Face 获取），并配套发表了论文，详细介绍了方法及基准测试结果。论文在巴西葡语文档结构化提取任务中，评测了多个视觉语言模型家族（含开源和商业模型）。其中关键指标是文本退化率——模型输出重复循环而非正确转录的频率。

在测试的开源模型中，原始退化率从不到1%到超过33%不等。监督微调（SFT）能降低部分模型的退化率，但极少能降到生产可接受的水平。这说明SFT存在结构性局限：它优化正确输出，但不明确惩罚退化。单纯依靠任务微调似乎无法彻底解决这类故障（参阅《文本退化：一个被忽视的生产故障模式》）。

第二阶段的训练——在SFT之后，使用相同文档和模型——在所有测试的模型家族中均降低了文本退化率。无例外。平均降低59.4%，最佳案例降低87.6%。

图1：DPO相对SFT降低了每个测试家族的退化率——平均降低59.4%，峰值87.6%（Nanonets-OCR2–3B：1.61%降至0.20%）。方向一致，仅幅度不同

这个第二阶段就是直接偏好优化（DPO）。目前几乎所有已发表的DPO应用都集中在聊天对齐上——模型根据人类对有用性或无害性的判断进行训练（如 Rafailov 等人，2023）。OCR完全没有这种主观性：任务是客观的，也没有对话上下文。但存在明确的偏好信号：正确转录作为被选样本，退化循环作为被拒样本。DharmaOCR正是利用这种二元信号构建了DPO训练集，测试该技术并非用于对齐，而是直接缓解特定故障模式。

训练信号来自模型自身——具体来说，来自它失败时产生的输出。故障模式如何变成训练信号，取决于故障本身的结构特性，而非模型。

循环在微调后依然存在

为什么SFT在退化问题上存在天花板？目前仍无定论，但主流猜测指向损失函数的粒度。SFT逐个token训练：每次预测孤立评估，重复循环不会被当作完成级别的失败来惩罚。DPO则反转了这一逻辑：训练信号是整个输出（被选或被拒），这意味着退化完成可以被明确标记为错误结果，而不仅仅是一系列局部高概率的token。

当训练目标最大化观察序列的似然时，概率质量会集中到这些序列占据的分布空间区域。推理时，模型一旦进入这些高概率吸引子区域，下一时间步就会给同一个token分配更高概率——概率进一步升高，循环持续，直到序列达到最大token限制。文本退化正是这种几何结构的输出：自回归模型无法自行退出的自强化循环（Holtzman 等人，2020）。这并非单纯的解码伪影。吸引子涉及训练目标、学习到的分布以及推理时概率质量的集中方式——这是系统级故障，而非组件的局部故障。

这种故障的几何结构在token层级可见。

图2：当一个token主导其自身的条件分布时，每个采样步骤都会加深吸引子。解码器从这个几何结构中采样，而非决定它

推理层的干预——重复惩罚、温度调整、提前中止逻辑——作用于采样步骤。它们控制症状，却不触及产生症状的分布。吸引子依然存在。

监督微调将分布移向任务领域。对于结构化生成流水线，这意味着在目标领域的文档、目标语言和所需输出格式上训练。模型获得更长的序列、受限的句法和领域词汇的流畅性。但SFT并不直接攻击退化。它的目标——最大化观察序列的似然——没有惩罚重复循环的项。故障模式恰好不在训练信号优化的范围之内。

DharmaOCR基准测试中有一个模型家族表现异常：原始退化率为0.60%，SFT后升至3.23%，后续DPO阶段将其降至1.41%。这只是一个数据点——例外，而非规则——如果认为这证明了某种机制，就过度解读了。但它确实表明，SFT并不能可靠地降低退化。能力和抗退化性可以独立变化。

这种区别在结构上很重要。SFT和DPO并不是以不同强度执行相同操作的可互换训练阶段。SFT缩小模型先验分布与任务领域之间的距离。但它并不以退化作为目标——它对故障模式的影响是偶然的，基准测试结果表明这种影响并不一致。产生退化的吸引子不是模型与任务接近程度的问题，而是模型当前占据分布空间形状的问题。

要处理这种几何结构，需要专门构建的训练信号，指引模型远离自身的故障模式。对于没有人类偏好标签、也没有传统“有益与有害”区分的结构化非对话任务，构建这种信号是一个设计决策。

设计决策：将退化输出作为拒绝对

DharmaOCR流水线对DPO方法学的贡献很具体：它使用了SFT模型自身的退化输出作为拒绝样本——不是作为需要去除的噪声，而是作为优化所需的负训练信号。

DPO需要偏好对：相同输入下的被选输出和被拒输出，质量差异足够清晰以便优化学习。在聊天对齐中，人类标注员产生这些判断——评估回答在有用性、准确性或安全性上的优劣。结构化生成任务没有对应的标注来源。OCR流水线要么产生正确转录，要么没有。质量差异存在，但并非由人类偏好排序产生，而是由任务自身的正确性标准产生。

DharmaOCR流水线识别到结构化生成任务已经产生的偏好信号：SFT模型在推理时产生的输出范围。能够执行结构化任务的模型也会以特定的方式失败。这些失败——进入退化吸引子的输出——不是需要过滤的噪声。它们是最有信息量的负信号。

论文在23,726份训练文档上实现了这一点：用SFT模型对每份文档生成多个候选回答，并通过自动化LLM评判器打分。流水线如下所示。

图3：关键设计决策并非流水线结构本身，而是流水线保留了什么：显示文本退化的输出被刻意标记为拒绝样本，而非作为低质量噪声过滤掉

传统的做法是在训练数据中出现退化输出时将其移除。它们是低质量信号；过滤能产生更干净的数据集。DharmaOCR方法反转了这一逻辑：退化输出被刻意保留下来，作为每个（被选，被拒）对中的拒绝样本，因为它们恰好代表了DPO阶段要抑制的故障模式。移除它们就丢弃了最清晰的目标。

论文将这种方法描述为“偏好引导的隐式反似然”——模型不仅被训练向更好的输出靠近，还远离特定类别的故障。SFT最大化高质量输出的似然，而DPO阶段同时惩罚展现退化吸引子几何结构的输出。优化方向是显式的，而SFT单独无法实现。

退化输出特别适合作为拒绝样本，因为它们代表了一致的故障模式，而非各种低质量输出。漏词的转录虽然质量低，但其失败是个案。相比之下，重复循环即使在SFT之后也持续跨文档和模型家族出现——这与似然优化无法可靠纠正的故障模式相符。DPO在不同层面应用损失：在完成级别，使用显式的拒绝信号。事后分析不能建立因果关系，但证据表明，SFT目标未能解决的问题，DPO可能解决。

这种方法不需要专门的标注基础设施——只需要一个能够同时产生可接受输出和可识别故障输出的模型，以及一个给偏好对打分的评分模型。基于规则的机制可以机械地检测重复循环——但它无法识别哪些输出是值得保留的高质量转录作为被选样本。

评分模型两者兼顾：它将退化标记为被拒输出，并验证干净提取作为被选输出，保持模型的提取能力，同时让DPO信号惩罚故障模式。这种训练信号能否成功将分布移向预期方向，以及是否跨架构一致，是证据需要回答的问题。

五个模型家族上的一致结果

DPO阶段在所有测试的模型家族中均降低了文本退化率——相对SFT而言，降低幅度从37%到88%，平均59.4%。结果跨架构、参数量级以及初始退化率（相差超过一个数量级）都成立。数据集中有一个案例SFT后退化率上升，随后DPO将其修正。这个案例并不复杂，而是比任何其他案例更直接地确认了机制。

图1显示了五个测试模型家族的三阶段退化率：原始、SFT、SFT+DPO。在四个家族中，每个阶段退化率均下降。第五个家族的柱状图走势不同——而这一差异是研究中最重要的分析数据点。

仔细分析Qwen2.5-VL-3B的结果，它并非复杂情况，而是确认。模型原始退化率0.60%——并非因为稳定，而是因为它太泛化，根本无法产生长的结构化输出。模型没有进入退化吸引子，因为它没有认真尝试任务到足以发现该吸引子。

SFT改变了这一点。经过领域适配后，Qwen2.5-VL-3B具备了任务能力——产生更长、更结构化的输出，包含领域词汇和流水线所需格式。这种能力第一次让它靠近退化吸引子。退化率升至3.23%。

这就是机制在经验上的显现：SFT同时将模型推向任务和任务的故障几何结构。这两者不一定是同一操作。一个增加任务能力的训练阶段可能作为副作用增加故障模式暴露——特别是当故障模式位于能力前沿的边缘。若将两者视为同一操作，Qwen2.5-VL-3B的结果看起来像是错误。但作为不同操作处理——这正是SFT+DPO流水线所做的——结果与假设一致：SFT和DPO处理不同的故障维度。

随后DPO阶段将退化率降至1.41%。它没有恢复到原始基线，因为其目的并非如此：SFT后的模型比之前更有能力，回到0.60%需要撤消这种能力。DPO阶段处理的是SFT阶段引入的故障几何结构。

其余四个模型家族为同一结论提供了定量支持。图1显示了所有五个家族的SFT到SFT+DPO对比。

图1：DPO相对SFT降低了每个测试家族的退化率——平均降低59.4%，峰值87.6%（Nanonets-OCR2–3B：1.61%降至0.20%）。方向一致，仅幅度不同

DPO后没有模型家族退化率上升。没有家族对它的效果免疫。一致性延伸至gemma-3–4b-it，它以最高原始退化率（33.96%）进入基准测试，是次高值的十多倍，但DPO后仍达到75%的降低。降低范围（37.3%至87.6%）反映了初始配置和架构的差异，而非干预方向的不一致。

这并非普适性的证明。DPO可能无法适用于每个领域、故障模式或模型家族。但DharmaOCR基准测试提供了跨五个OCR架构的证据，证明核心假设成立：在完整偏好对上优化——而非最大化token级别似然——解决了SFT结构性无法瞄准的故障模式。结果方向在所有测试的模型家族中一致。在这一基准测试范围内，证据支持这种一致性。

超越OCR的模式

DharmaOCR方法之所以可行，是因为该流水线满足一组结构性条件，使DPO训练阶段能够按设计运行——这些条件的存在与否决定了相同方法论是否适用于其他地方（参阅Dharma OCR论文）。并非因为OCR是独特领域。

第一个条件是故障模式可识别为一种独特的输出类别，而不仅仅是质量连续体上的一个点。文本退化符合要求，因为重复循环与漏词或字符误读的转录有范畴差异。输出不仅次优——它以一种特定、行为可识别的方式被破坏。这种范畴独特性使流水线能够构建偏好对，其中拒绝样本代表一致的故障几何结构，而非噪声。故障模式与其可接受变化范围混杂的任务缺乏这一特性。

第二个条件是存在一种评分机制，可以可靠地将可接受输出与故障模式输出区分开，且无需人工标注。在DharmaOCR流水线中，自动化LLM评判器根据四个任务特定标准对候选回答打分。评分不必完美——它需要足够一致，以产生被选与被拒之间存在有意义质量差距的偏好对。质量差距模糊的对会给DPO训练带来噪声而非信号。评判器的一致性是一项设计需求，而非附带的特性。

第三个条件是有足够的数量——足够多的推理输出以生成具有有意义质量差异的偏好数据集。这并非微调标准中的极端要求，但确实是实在的条件。

当三个条件都满足时，这一方法论移动在结构上即可实现。DharmaOCR流水线的核心设计决策——将模型自身的故障输出作为拒绝样本而非过滤掉——适用于任何模型故障在类别上可识别、可评分且数量充足的场景。

对构建结构化生成流水线的机器学习工程师来说，实际含义很直接。SFT是必要的——它缩小通用模型与任务能力模型之间的距离。但对于结构化输出可靠性来说还不够，因为任务能力和抗退化性是分布的不同属性。在SFT之后加一个DPO阶段，是一次性的训练投入。在DharmaOCR结果中，退化率的降低并未以提取质量为代价——论文的基准测试结果表明两者正向协同（参阅《专业化胜过规模》）。

使故障模式可用作训练信号的并非领域——而是故障是否足够一致、可识别、数量充足以构成可解读的信号。在DharmaOCR流水线中，符合条件。在另一个上下文中是否同样成立，是关于任务故障模式的结构性问题，而非关于模型家族或领域的问题。

DharmaOCR结果不依赖于领域特殊性。它依赖于故障的有用性。

文本退化之所以有用，是因为它在类别上不同于可接受输出，在多次推理运行中一致被产生，且无需人工标注即可可靠评分。这三个特性——而非OCR背景、模型家族或语言——决定了偏好数据集是否易于处理。满足这些特性的故障模式不是需要去除的噪声。它们是关于分布不应走向何处的最直接证据。

DPO阶段使用了这种证据。在所有测试的模型家族中退化率下降——无论是在原始退化率低于1%还是高于33%的模型中。方向一致。该流水线没有丢弃失败。它用失败进行训练。

来源

Cardoso, Gabriel Pimenta de Freitas, 等. "DharmaOCR: Specialized Small Language Models for Structured OCR that outperform Open-Source and Commercial Baselines." arXiv:2604.14314 (2026).
Dharma AI. "Text Degeneration: The Production Failure Mode That LLM Benchmarks Ignore." Medium (2026).
Dharma AI. "Specialization Beats Scale: A Strategic Variable Most AI Procurement Decisions Overlook." Medium (2026).
Holtzman, Ari, 等. "The Curious Case of Neural Text Degeneration." arXiv:1904.09751 (2020).
Rafailov, Rafael, 等. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model." arXiv:2305.18290 (2023).

原文链接：Hugging Face
本文由前途科技编辑整理

DPO新应用：用模型自身错误优化OCR文本退化

AI 前沿2026年6月2日· 原作者：Hugging Face· 9 分钟阅读1 阅读

第二阶段的训练——在SFT之后，使用相同文档和模型——在所有测试的模型家族中均降低了文本退化率。无例外。平均降低59.4%，最佳案例降低87.6%。

图1：DPO相对SFT降低了每个测试家族的退化率——平均降低59.4%，峰值87.6%（Nanonets-OCR2–3B：1.61%降至0.20%）。方向一致，仅幅度不同

训练信号来自模型自身——具体来说，来自它失败时产生的输出。故障模式如何变成训练信号，取决于故障本身的结构特性，而非模型。