专业化胜过规模：企业AI采购忽略的关键变量

过去三年，企业AI策略一直遵循一个稳定假设：最安全的选择通常是最大的前沿模型。小型模型被视为只能在容忍质量降低以换取更低成本时使用。这个逻辑看似合理：能力随参数规模增长，前沿提供商在主要基准上持续领先，选错模型的风险似乎高于多花钱的风险。

但实证记录已经出现了一个该假设无法轻易解释的结果。

今年早些时候，Dharma发布了一个基准测试，其中30亿参数的专用模型——任何资源充足的企业都可复现的微调管道——在测试中击败了所有商业前沿API。差距不是微小的，也不是在买方会忽略的指标上。成本差距与质量差距方向相反：得分最高的模型也是运营成本最低的，差距大到足以在任意规模上改变采购算法。

这个结果并非孤例。它是Dharma在其他领域观察到的模式中最严格衡量的实例，也是日益增长的专门化研究开始记录的现象（Subramanian等，2025；Pecher等，2026）。但它引发了一个值得明确提出的问题：当最大的模型不是性能最好的模型时，是什么变量在起作用？

战略默认值

采购默认值并非偶然出现。它之所以出现，是因为在过去三年大部分时间里，它是正确的。

当GPT-4发布时，它在重要基准上超越了所有更小的模型。这种模式在Claude 3、Gemini 1.5和2025年的每一代前沿版本中不断重复。能力随参数规模和训练计算量而扩展（Kaplan等，2020）——OpenAI的扩展定律早在几年前就形式化了这种经验关系。结论随之而来：选择最大可用模型的买方，平均而言，选择了最佳性能工具。在缺乏更精细信号的情况下，默认选择大规模是理性的举动。

这个假设之所以站得住脚，是因为在产生它的多数比较中，它都是正确的。改变的不是假设一直错误，而是它所依赖的比较集可能不完整。

缺失的是另一种模型。不是更小的前沿模型，而是专用模型——其训练历史通过一系列微调步骤故意移近其将被要求执行的任务，使较小的基础模型适应其部署领域。开篇描述的论文是首批将成本、质量和生产稳定性并排测量的比较之一。

实证记录实际表明了什么

论文使用的基准是领域特定评估：巴西葡萄牙语OCR，涵盖印刷文档、手写文本和法律行政记录。基准本身不是本文重点。重要的是它测量了什么以及运行了哪些比较。

在提取质量上，比较中得分最高的模型是30亿参数的专用模型。它在基准的综合得分（结合编辑距离相似性和n-gram重叠）上得分为0.911。最接近的前沿替代品——Claude Opus 4.6——得分为0.833。其下依次是：Gemini 3.1 Pro 0.820，GPT-5.4 0.750，Google Vision 0.686，Google Document AI 0.640，GPT-4o 0.635，Amazon Textract 0.618，Mistral OCR 3 0.574。专用模型排名第一，与Claude Opus 4.6的差距接近八个百分点，比比较中任何相邻完成者之间的差距都大。

模型得分榜

在成本上，差距大得多。专用3B模型每百万页的运营成本约为Claude Opus 4.6的五十二分之一——这一边际基于推理基础设施成本与公开API定价计算。质量-成本图（Pareto前沿）显示专用模型位于图表左上角，而商业API位于右下角。（财务建模深度在文本退化的真实经济学中展开。）

在生产稳定性上，同一模型产生了评估中最低的文本退化率——衡量生成进入自我强化循环并无法产生可用输出的频率。（生产稳定性案例在集群的文本退化文章中展开。）3B模型在此基准上记录为0.20%；下一个最接近的专用模型为0.40%；更大的通用开源基线更高；商业API未直接在此指标上基准化。

文本退化率

这三项发现——质量、成本和稳定性，均由同一3B专用模型领先——是本文的实证锚点。它们共同使实证论据比任何单一发现更强。论文没有声称，本文也没有声称，结果适用于所有企业AI工作负载。它声称的是，在此基准上，实验中最小专用模型在每一重要维度上都是第一。

这就使显而易见的问题成为正确的问题。比较中最小的模型在质量、成本和稳定性上胜出。参数规模本身无法解释这一结果。自然的问题是识别起作用的变量。

起作用的变量

部分原因是直观的。一个专注于部署任务的30亿参数模型通常会击败一个参数分散在任务永远不会触及的材料（其他语言、其他语料库、其他领域）上的大得多的模型。论文的进一步贡献是：重要的变量不仅包括参数如何分配，还包括模型的训练历史如何向任务靠近。在报告的实验中，这一变量比任何其他测试变量（包括参数数量）更可靠地预测了相对性能。

论文直接命名了这一点。在讨论中，作者将结果描述为支持“上下文专用化可能比模型参数数量本身更具决定性”的说法。决定模型性能最佳的因素不是参数数量，而是其训练轨迹向部署任务靠近的程度。在更广分布上训练的较大模型输给了在更窄分布上训练的较小模型。更窄的训练是产生胜利的变量。

这是一种与采购默认值不同的思考模型性能的方式。在默认值下，参数数量是主导变量，训练历史是次要修改项。在论文提出的框架下，优先级反转了。任务分布对齐成为主导变量。参数数量成为影响给定对齐步骤产生多少收益的几个因素之一。

专用化不是补偿规模小的方式。它是实现对齐的方式。

数字支持这一框架。3B Nanonets-OCR2——在论文开始前已专门用于通用OCR——通过监督微调和直接偏好优化在目标领域上微调，达到0.921，退化率0.20%。相同架构的通用3B模型Qwen2.5-VL-3B运行相同程序，达到0.793，退化率1.41%。相同架构，相同训练，不同结果。变量是模型在程序开始前已向任务移动的距离。

在论文提出的框架下，分布对齐并非OCR特有。它是模型与其被要求执行的任务之间关系的属性。对于给定的企业工作负载，哪个模型最好，在这个框架下，主要取决于其训练历史有多对齐——而不是模型有多大。

如果分布对齐是最重要的变量之一，下一个问题是它如何积累。论文的证据表明它并非一步到位。上述结果是一种更广泛模式的一个实例：在论文数据中，专用化更像一个层级结构，模型可以一步步向上移动。

专用化是累积的

对齐不是模型有或没有的单一属性。它是层级上的一个位置，可以一步步向上移动。通用模型位于底部；通用领域专家（针对更广泛工作类别训练）位于其上；领域专家（针对将要部署的特定工作训练）位于更上。相同的下游训练根据模型起始步骤产生不同结果。

论文对此有结构性证据。两对比较直接说明了这一点。

在70亿参数规模：基于Qwen2.5-VL-7B-Instruct（通用起点）的最佳微调模型达到0.906，退化率1.01%。相同训练应用于已经专用化于通用OCR的olmOCR-2–7B，达到0.927，退化率0.40%。质量提升约2.3%；退化率下降近一半。相同架构，相同数据，相同训练管道。变量是起始位置。

在30亿参数规模：Qwen2.5-VL-3B达到0.793，退化率1.41%；Nanonets-OCR2–3B达到0.921，退化率0.20%。相同程序，相同架构类别，不同起始位置。质量提升约16%；退化率下降约七分之一。

渐进专用化策略

两对比较，两个参数规模，两个一致结果。专用化是累积的。已经向其最终任务更广类别靠近的模型，从相同领域特定训练中受益比从更广分布开始的模型更多。程序不会从无中产生对齐。它建立在已存在的对齐之上。

存在专用化层级，每个层级都建立在前一个层级编码的分布之上。多阶段训练可以逐步将模型移近目标任务分布，在相似的架构和计算约束下产生实质不同的下游结果。

这种模式——对齐作为累积量——是本文从论文证据中得出的最强主张。其边界需要明确标记。层级在一个领域、一个基准上、通过两对模型比较得到证明。机制没有领域特定原因被限制在OCR——但证据尚未在其他地方收集，尊重其边界的论点应标记这一区别。扩展这一实证调查到更多企业领域是这项工作开启的更广泛研究方向的一部分，Dharma打算进一步调查。

标记边界后，战略讨论向前推进。在一个良好测量的企业领域中显示主导参数数量的变量，是团队现在有理由权衡的策略——不是在每种环境中，而是在任何可以运行对齐测试的地方。

战略问题发生变化

阅读论文的一个有用方式不是将其作为企业下一步该做什么的指令，而是作为它们应该问什么的提示。三个问题变得更加清晰。

第一：分布对齐是否应被提升为与参数数量并列的AI评估中的一类变量。论文证据并非主张将其提升到参数数量之上。它更温和地主张，对齐作为一个变量足够大，应被明确测试，而不是假设它很小。

第二：基准领导力本身是否足以支撑企业采购决策？在一个良好测量的领域，引领公开基准的模型并不是提供最佳结果的模型。如果这种偏差出现在其他领域——论文没有确定一定有，只是说明可能——企业评估可能需要额外一层证据，在代表部署的工作负载上运行。

第三关于架构而非方法。如果对齐是一个累积的层级位置，起始模型的选择——不仅仅是微调程序——本身成为战略决策。一个已经更接近部署任务的起始模型可能在相同训练预算下比更大更通用的模型产生更好结果。但更深层的含义可能是组织性的而非程序性的。如果专用化是累积的，企业最终可能从构建与其自身领域、工作流和运营约束逐步对齐的模型生态系统中受益更多，而不是寻找单一通用模型。这种架构在实践中是否有利，每个组织需在自己环境中评估。

有边界的重述

本文的贡献是有意狭窄的。它没有论证前沿模型是劣等的、可抛弃的，或采购默认值应被颠倒。它基于一篇论文的证据论证，前沿模型不一定对每个企业AI工作负载都是最佳选择。在报告的实验中，训练历史与部署任务更紧密对齐的较小专用模型在质量、成本和稳定性上优于评估的较大商业API。含义不是前沿模型较差。而是专用化历史可能是一个比当前许多评估框架假设的更重要的战略变量。

我们写这篇文章不是为了争论规模不再重要，而是为了隔离一个当前企业AI对话可能仍低估的变量。训练历史可以被观察、评估，并通过连续的专用化阶段移动到更接近部署任务。在论文报告的对比中，这种关系显著改变了每个评估模型的排名。它是否改变其他地方的排名，是下一个实验集要回答的问题。

来源：

Cardoso, Gabriel Pimenta de Freitas, et al. “DharmaOCR: Specialized Small Language Models for Structured OCR that outperform Open-Source and Commercial Baselines.” arXiv:2604.14314 (2026).
Subramanian, Karthik, et al. “Small Language Models for Domain-Specific Enterprise AI Workloads.” arXiv:2503.11872 (2025).
Pecher, Branislav, et al. “Comparing specialised small and general large language models on text classification: 100 labelled samples to achieve break-even performance”, (2026).
Kaplan, Jared, et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361 (2020).

原文链接：Hugging Face
本文由前途科技编辑整理

但实证记录已经出现了一个该假设无法轻易解释的结果。

战略默认值

采购默认值并非偶然出现。它之所以出现，是因为在过去三年大部分时间里，它是正确的。

这个假设之所以站得住脚，是因为在产生它的多数比较中，它都是正确的。改变的不是假设一直错误，而是它所依赖的比较集可能不完整。

实证记录实际表明了什么

模型得分榜

文本退化率

起作用的变量

专用化不是补偿规模小的方式。它是实现对齐的方式。

专用化是累积的

论文对此有结构性证据。两对比较直接说明了这一点。

渐进专用化策略

战略问题发生变化

阅读论文的一个有用方式不是将其作为企业下一步该做什么的指令，而是作为它们应该问什么的提示。三个问题变得更加清晰。

有边界的重述

来源：

Cardoso, Gabriel Pimenta de Freitas, et al. “DharmaOCR: Specialized Small Language Models for Structured OCR that outperform Open-Source and Commercial Baselines.” arXiv:2604.14314 (2026).
Subramanian, Karthik, et al. “Small Language Models for Domain-Specific Enterprise AI Workloads.” arXiv:2503.11872 (2025).
Pecher, Branislav, et al. “Comparing specialised small and general large language models on text classification: 100 labelled samples to achieve break-even performance”, (2026).
Kaplan, Jared, et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361 (2020).

原文链接：Hugging Face
本文由前途科技编辑整理

专业化胜过规模：企业AI采购忽略的关键变量

战略默认值

实证记录实际表明了什么

起作用的变量

专用化是累积的

战略问题发生变化

有边界的重述

想了解 AI 如何助力您的企业？

24小时热榜

中国指责美国破坏全球芯片供应链

Anthropic呼吁全球暂停前沿AI开发

前IBM高管指控IBM与AT&T隐瞒黑客入侵

沃伦邀请黄仁勋出席对华芯片听证会

美日启动10亿美元AI研究合作

CISA将发布指令执行特朗普AI行政令

Meta 智能眼镜应用暗藏面部识别代码

Airbnb CEO 计划成立新 AI 实验室

免费获取 AI 落地指南

专业化胜过规模：企业AI采购忽略的关键变量

战略默认值

实证记录实际表明了什么

起作用的变量

专用化是累积的

战略问题发生变化

有边界的重述

想了解 AI 如何助力您的企业？

24小时热榜

中国指责美国破坏全球芯片供应链

Anthropic呼吁全球暂停前沿AI开发

前IBM高管指控IBM与AT&T隐瞒黑客入侵

沃伦邀请黄仁勋出席对华芯片听证会

美日启动10亿美元AI研究合作

CISA将发布指令执行特朗普AI行政令

Meta 智能眼镜应用暗藏面部识别代码

Airbnb CEO 计划成立新 AI 实验室

免费获取 AI 落地指南