前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

DPO新应用:用模型自身错误优化OCR文本退化

AI 前沿2026年6月2日· 原作者:Hugging Face· 9 分钟阅读1 阅读

Hugging Face团队发现,直接偏好优化(DPO)不仅用于聊天对齐,还能有效降低结构化OCR任务中的文本退化率。通过将模型自身产生的重复循环输出作为拒绝样本,DPO在五个模型家族中平均降低59.4%的退化率,弥补了监督微调的结构性局限。

今年4月,Dharma AI 团队发布了专门处理结构化OCR的模型 DharmaOCR(可在 Hugging Face 获取),并配套发表了论文,详细介绍了方法及基准测试结果。论文在巴西葡语文档结构化提取任务中,评测了多个视觉语言模型家族(含开源和商业模型)。其中关键指标是文本退化率——模型输出重复循环而非正确转录的频率。

在测试的开源模型中,原始退化率从不到1%到超过33%不等。监督微调(SFT)能降低部分模型的退化率,但极少能降到生产可接受的水平。这说明SFT存在结构性局限:它优化正确输出,但不明确惩罚退化。单纯依靠任务微调似乎无法彻底解决这类故障(参阅《文本退化:一个被忽视的生产故障模式》)。

第二阶段的训练——在SFT之后,使用相同文档和模型——在所有测试的模型家族中均降低了文本退化率。无例外。平均降低59.4%,最佳案例降低87.6%。

图1:DPO相对SFT降低了每个测试家族的退化率——平均降低59.4%,峰值87.6%(Nanonets-OCR2–3B:1.61%降至0.20%)。方向一致,仅幅度不同

这个第二阶段就是直接偏好优化(DPO)。目前几乎所有已发表的DPO应用都集中在聊天对齐上——模型根据人类对有用性或无害性的判断进行训练(如 Rafailov 等人,2023)。OCR完全没有这种主观性:任务是客观的,也没有对话上下文。但存在明确的偏好信号:正确转录作为被选样本,退化循环作为被拒样本。DharmaOCR正是利用这种二元信号构建了DPO训练集,测试该技术并非用于对齐,而是直接缓解特定故障模式。

训练信号来自模型自身——具体来说,来自它失败时产生的输出。故障模式如何变成训练信号,取决于故障本身的结构特性,而非模型。


循环在微调后依然存在

为什么SFT在退化问题上存在天花板?目前仍无定论,但主流猜测指向损失函数的粒度。SFT逐个token训练:每次预测孤立评估,重复循环不会被当作完成级别的失败来惩罚。DPO则反转了这一逻辑:训练信号是整个输出(被选或被拒),这意味着退化完成可以被明确标记为错误结果,而不仅仅是一系列局部高概率的token。

当训练目标最大化观察序列的似然时,概率质量会集中到这些序列占据的分布空间区域。推理时,模型一旦进入这些高概率吸引子区域,下一时间步就会给同一个token分配更高概率——概率进一步升高,循环持续,直到序列达到最大token限制。文本退化正是这种几何结构的输出:自回归模型无法自行退出的自强化循环(Holtzman 等人,2020)。这并非单纯的解码伪影。吸引子涉及训练目标、学习到的分布以及推理时概率质量的集中方式——这是系统级故障,而非组件的局部故障。

这种故障的几何结构在token层级可见。

图2:当一个token主导其自身的条件分布时,每个采样步骤都会加深吸引子。解码器从这个几何结构中采样,而非决定它

推理层的干预——重复惩罚、温度调整、提前中止逻辑——作用于采样步骤。它们控制症状,却不触及产生症状的分布。吸引子依然存在。

监督微调将分布移向任务领域。对于结构化生成流水线,这意味着在目标领域的文档、目标语言和所需输出格式上训练。模型获得更长的序列、受限的句法和领域词汇的流畅性。但SFT并不直接攻击退化。它的目标——最大化观察序列的似然——没有惩罚重复循环的项。故障模式恰好不在训练信号优化的范围之内。

DharmaOCR基准测试中有一个模型家族表现异常:原始退化率为0.60%,SFT后升至3.23%,后续DPO阶段将其降至1.41%。这只是一个数据点——例外,而非规则——如果认为这证明了某种机制,就过度解读了。但它确实表明,SFT并不能可靠地降低退化。能力和抗退化性可以独立变化。

这种区别在结构上很重要。SFT和DPO并不是以不同强度执行相同操作的可互换训练阶段。SFT缩小模型先验分布与任务领域之间的距离。但它并不以退化作为目标——它对故障模式的影响是偶然的,基准测试结果表明这种影响并不一致。产生退化的吸引子不是模型与任务接近程度的问题,而是模型当前占据分布空间形状的问题。

要处理这种几何结构,需要专门构建的训练信号,指引模型远离自身的故障模式。对于没有人类偏好标签、也没有传统“有益与有害”区分的结构化非对话任务,构建这种信号是一个设计决策。


设计决策:将退化输出作为拒绝对

DharmaOCR流水线对DPO方法学的贡献很具体:它使用了SFT模型自身的退化输出作为拒绝样本——不是作为需要去除的噪声,而是作为优化所需的负训练信号。

DPO需要偏好对:相同输入下的被选输出和被拒输出,质量差异足够清晰以便优化学习。在聊天对齐中,人类标注员产生这些判断——评估回答在有用性、准确性或安全性上的优劣。结构化生成任务没有对应的标注来源。OCR流水线要么产生正确转录,要么没有。质量差异存在,但并非由人类偏好排序产生,而是由任务自身的正确性标准产生。

DharmaOCR流水线识别到结构化生成任务已经产生的偏好信号:SFT模型在推理时产生的输出范围。能够执行结构化任务的模型也会以特定的方式失败。这些失败——进入退化吸引子的输出——不是需要过滤的噪声。它们是最有信息量的负信号。

论文在23,726份训练文档上实现了这一点:用SFT模型对每份文档生成多个候选回答,并通过自动化LLM评判器打分。流水线如下所示。

图3:关键设计决策并非流水线结构本身,而是流水线保留了什么:显示文本退化的输出被刻意标记为拒绝样本,而非作为低质量噪声过滤掉

传统的做法是在训练数据中出现退化输出时将其移除。它们是低质量信号;过滤能产生更干净的数据集。DharmaOCR方法反转了这一逻辑:退化输出被刻意保留下来,作为每个(被选,被拒)对中的拒绝样本,因为它们恰好代表了DPO阶段要抑制的故障模式。移除它们就丢弃了最清晰的目标。

论文将这种方法描述为“偏好引导的隐式反似然”——模型不仅被训练向更好的输出靠近,还远离特定类别的故障。SFT最大化高质量输出的似然,而DPO阶段同时惩罚展现退化吸引子几何结构的输出。优化方向是显式的,而SFT单独无法实现。

退化输出特别适合作为拒绝样本,因为它们代表了一致的故障模式,而非各种低质量输出。漏词的转录虽然质量低,但其失败是个案。相比之下,重复循环即使在SFT之后也持续跨文档和模型家族出现——这与似然优化无法可靠纠正的故障模式相符。DPO在不同层面应用损失:在完成级别,使用显式的拒绝信号。事后分析不能建立因果关系,但证据表明,SFT目标未能解决的问题,DPO可能解决。

这种方法不需要专门的标注基础设施——只需要一个能够同时产生可接受输出和可识别故障输出的模型,以及一个给偏好对打分的评分模型。基于规则的机制可以机械地检测重复循环——但它无法识别哪些输出是值得保留的高质量转录作为被选样本。

评分模型两者兼顾:它将退化标记为被拒输出,并验证干净提取作为被选输出,保持模型的提取能力,同时让DPO信号惩罚故障模式。这种训练信号能否成功将分布移向预期方向,以及是否跨架构一致,是证据需要回答的问题。


五个模型家族上的一致结果

DPO阶段在所有测试的模型家族中均降低了文本退化率——相对SFT而言,降低幅度从37%到88%,平均59.4%。结果跨架构、参数量级以及初始退化率(相差超过一个数量级)都成立。数据集中有一个案例SFT后退化率上升,随后DPO将其修正。这个案例并不复杂,而是比任何其他案例更直接地确认了机制。

图1显示了五个测试模型家族的三阶段退化率:原始、SFT、SFT+DPO。在四个家族中,每个阶段退化率均下降。第五个家族的柱状图走势不同——而这一差异是研究中最重要的分析数据点。

仔细分析Qwen2.5-VL-3B的结果,它并非复杂情况,而是确认。模型原始退化率0.60%——并非因为稳定,而是因为它太泛化,根本无法产生长的结构化输出。模型没有进入退化吸引子,因为它没有认真尝试任务到足以发现该吸引子。

SFT改变了这一点。经过领域适配后,Qwen2.5-VL-3B具备了任务能力——产生更长、更结构化的输出,包含领域词汇和流水线所需格式。这种能力第一次让它靠近退化吸引子。退化率升至3.23%。

这就是机制在经验上的显现:SFT同时将模型推向任务和任务的故障几何结构。这两者不一定是同一操作。一个增加任务能力的训练阶段可能作为副作用增加故障模式暴露——特别是当故障模式位于能力前沿的边缘。若将两者视为同一操作,Qwen2.5-VL-3B的结果看起来像是错误。但作为不同操作处理——这正是SFT+DPO流水线所做的——结果与假设一致:SFT和DPO处理不同的故障维度。

随后DPO阶段将退化率降至1.41%。它没有恢复到原始基线,因为其目的并非如此:SFT后的模型比之前更有能力,回到0.60%需要撤消这种能力。DPO阶段处理的是SFT阶段引入的故障几何结构。

其余四个模型家族为同一结论提供了定量支持。图1显示了所有五个家族的SFT到SFT+DPO对比。

图1:DPO相对SFT降低了每个测试家族的退化率——平均降低59.4%,峰值87.6%(Nanonets-OCR2–3B:1.61%降至0.20%)。方向一致,仅幅度不同

DPO后没有模型家族退化率上升。没有家族对它的效果免疫。一致性延伸至gemma-3–4b-it,它以最高原始退化率(33.96%)进入基准测试,是次高值的十多倍,但DPO后仍达到75%的降低。降低范围(37.3%至87.6%)反映了初始配置和架构的差异,而非干预方向的不一致。

这并非普适性的证明。DPO可能无法适用于每个领域、故障模式或模型家族。但DharmaOCR基准测试提供了跨五个OCR架构的证据,证明核心假设成立:在完整偏好对上优化——而非最大化token级别似然——解决了SFT结构性无法瞄准的故障模式。结果方向在所有测试的模型家族中一致。在这一基准测试范围内,证据支持这种一致性。


超越OCR的模式

DharmaOCR方法之所以可行,是因为该流水线满足一组结构性条件,使DPO训练阶段能够按设计运行——这些条件的存在与否决定了相同方法论是否适用于其他地方(参阅Dharma OCR论文)。并非因为OCR是独特领域。

第一个条件是故障模式可识别为一种独特的输出类别,而不仅仅是质量连续体上的一个点。文本退化符合要求,因为重复循环与漏词或字符误读的转录有范畴差异。输出不仅次优——它以一种特定、行为可识别的方式被破坏。这种范畴独特性使流水线能够构建偏好对,其中拒绝样本代表一致的故障几何结构,而非噪声。故障模式与其可接受变化范围混杂的任务缺乏这一特性。

第二个条件是存在一种评分机制,可以可靠地将可接受输出与故障模式输出区分开,且无需人工标注。在DharmaOCR流水线中,自动化LLM评判器根据四个任务特定标准对候选回答打分。评分不必完美——它需要足够一致,以产生被选与被拒之间存在有意义质量差距的偏好对。质量差距模糊的对会给DPO训练带来噪声而非信号。评判器的一致性是一项设计需求,而非附带的特性。

第三个条件是有足够的数量——足够多的推理输出以生成具有有意义质量差异的偏好数据集。这并非微调标准中的极端要求,但确实是实在的条件。

当三个条件都满足时,这一方法论移动在结构上即可实现。DharmaOCR流水线的核心设计决策——将模型自身的故障输出作为拒绝样本而非过滤掉——适用于任何模型故障在类别上可识别、可评分且数量充足的场景。

对构建结构化生成流水线的机器学习工程师来说,实际含义很直接。SFT是必要的——它缩小通用模型与任务能力模型之间的距离。但对于结构化输出可靠性来说还不够,因为任务能力和抗退化性是分布的不同属性。在SFT之后加一个DPO阶段,是一次性的训练投入。在DharmaOCR结果中,退化率的降低并未以提取质量为代价——论文的基准测试结果表明两者正向协同(参阅《专业化胜过规模》)。

使故障模式可用作训练信号的并非领域——而是故障是否足够一致、可识别、数量充足以构成可解读的信号。在DharmaOCR流水线中,符合条件。在另一个上下文中是否同样成立,是关于任务故障模式的结构性问题,而非关于模型家族或领域的问题。

DharmaOCR结果不依赖于领域特殊性。它依赖于故障的有用性。

文本退化之所以有用,是因为它在类别上不同于可接受输出,在多次推理运行中一致被产生,且无需人工标注即可可靠评分。这三个特性——而非OCR背景、模型家族或语言——决定了偏好数据集是否易于处理。满足这些特性的故障模式不是需要去除的噪声。它们是关于分布不应走向何处的最直接证据。

DPO阶段使用了这种证据。在所有测试的模型家族中退化率下降——无论是在原始退化率低于1%还是高于33%的模型中。方向一致。该流水线没有丢弃失败。它用失败进行训练。


来源

  • Cardoso, Gabriel Pimenta de Freitas, 等. "DharmaOCR: Specialized Small Language Models for Structured OCR that outperform Open-Source and Commercial Baselines." arXiv:2604.14314 (2026).
  • Dharma AI. "Text Degeneration: The Production Failure Mode That LLM Benchmarks Ignore." Medium (2026).
  • Dharma AI. "Specialization Beats Scale: A Strategic Variable Most AI Procurement Decisions Overlook." Medium (2026).
  • Holtzman, Ari, 等. "The Curious Case of Neural Text Degeneration." arXiv:1904.09751 (2020).
  • Rafailov, Rafael, 等. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model." arXiv:2305.18290 (2023).

原文链接:Hugging Face
本文由前途科技编辑整理

标签:OCR微调Qwen

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

美国陆军:禁用中国设备或拖累军事数据中心
TOP1

美国陆军:禁用中国设备或拖累军事数据中心

TOP2

AI产品经理指标手册:五层、四实践、一清单

3

Neuralink植入装置恢复瘫痪患者语言与艺术能力

5小时前
Neuralink植入装置恢复瘫痪患者语言与艺术能力
4

画面党该醒醒了,用户一直在调音量

5小时前
5

流式传输:让AI响应快到飞起

5小时前
6

SkillOpt:从提示工程到技能训练

5小时前
7

分层架构正在瓦解:自治领域能力崛起

5小时前
分层架构正在瓦解:自治领域能力崛起
8

轨道清洁战:近地轨道上万亿美金的博弈

5小时前
轨道清洁战:近地轨道上万亿美金的博弈
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款