DocReward：让智能体生成更专业文档的奖励模型，聚焦结构与样式优化

随着大模型已能准确生成内容，如何让文档在视觉上“好看、易读”已成为办公智能体转型的新焦点。微软亚洲研究院携手香港中文大学、中国科学院大学提出了一个专注于评估文档“结构与样式”专业性的奖励模型 DocReward。该模型为智能体生成的文档提供了清晰、可量化的优化信号，使其不仅在内容层面准确可信，更在形式呈现上清晰有序、专业规范，为下一代智能办公智能体的落地奠定了关键基础。

近年来，随着智能体化转型（Agentic Transformation）的快速发展，AI 自动化能力持续突破，已经覆盖文档生成、代码生成、图像生成、视觉理解、数学推理等多种复杂任务。这一趋势凸显了传统软件智能体化转型的重要性，以 Microsoft Office 为代表的核心生产力平台，若升级为具备自主推理与操作能力的下一代智能体，则将实现自然语言与办公自动化的无缝衔接，显著提升工作效率和专业水平。

为推动这一转型，微软亚洲研究院联合香港中文大学、中国科学院大学，提出了专注于文档结构与样式专业度的奖励模型 DocReward。DocReward 能够评估文档的视觉层次、排版规范及整体可读性，为自动化文档创作提供核心支撑。通过优化结构与样式，DocReward 能够帮助由智能体生成的文档在形式上达到专业标准，确保内容呈现清晰、有序、易读。

在内容生成方面，Deep Research 通过智能体化的文献调研，可高效整合信息并输出专业报告。结合 DocReward，智能体不仅能够产出内容可靠、信息丰富的文档，还能确保文档结构清晰、风格专业，从而实现从信息调研到高质量文档呈现的完整闭环，为传统办公软件的智能体化转型奠定坚实基础。

DocReward模型辅助智能体生成专业文档的示意图

DocReward: A Document Reward Model for Structuring and Stylizing

论文链接：

https://arxiv.org/abs/2510.11391

专业文档智能体化生成面临的挑战

如今，智能体化的专业文档生成已经成为一个备受关注的方向。然而，目前的研究大多集中在“文本内容质量”的提升上，对“结构与样式”这些视觉元素的重要性关注不足。事实上，一份真正专业的文档不仅要内容扎实，更要结构清晰、样式恰当。清晰的结构能让读者顺畅地理解信息，而恰当的样式则有助于提升整体的阅读体验与专业感。

这种忽视的根源在于：现有的奖励模型尚无法有效指导智能体生成在视觉上更专业、结构与样式更合理的文档。但未来的研究将致力于让 AI 不仅能写出“对”的内容，更能写出“易读、美观”的作品。

对此，研究团队提出了奖励模型 DocReward，专门用于评估文档结构和样式的专业性，从而辅助现有的智能体工作流，生成更加专业的文档。

任务建模——文档结构和样式评估

假设有一组文档 {Di}，每份文档的文本内容和对应的渲染图像分别用 D(text,i) 和 D_(img,i) 表示。文档奖励模型会对这些文档进行评分，使得评分能够反映文档在结构和样式上的专业程度。

具体来说，对于内容相同的一组文档，研究员们希望奖励模型（用 R_θ 表示）预测的评分顺序能够尽可能与文档在结构和样式上的真实优劣顺序（用 π* 表示）保持一致。通过这种方法，奖励模型能够区分同一文本内容下文档的优劣，从而提升结构和样式评估的准确性。

形式化表示如下：

文档结构与样式评估模型示意图

文档结构与样式专业性的定义如下：

结构（Structure）：文档应合理使用空白区域，保持适当的页边距；章节分隔清晰，文本对齐良好，段落间距和缩进适当，页眉页脚使用规范；整体内容逻辑清晰、条理分明。
样式（Style）：文档应选择合理的字体，包括字体类型、大小、颜色和可读性；标题样式清晰，有效使用加粗、斜体等强调手段；项目符号和编号使用得当，整体格式统一。

DocReward：聚焦结构和样式的文档奖励模型

为了训练 DocReward，研究团队构造了 DocPair 数据集。该数据集包含11.7万对文档，涵盖32个领域和267种文档类型。模型通过偏好学习优化，能够准确评估文档在结构和样式的专业度。

如图2所示，DocPair 的数据构造流程分为三个步骤。

DocPair数据集构造流程图

高质量文档的收集

首先，研究团队收集了一批人类撰写的 Microsoft Word 文件，涵盖正式的机构文档和日常办公文档。数据来源包括：

政府与机构文档：GovDocs1 和 NapierOne 数据集。GovDocs1 包含大量美国政府网站的政策报告、行政表格、统计报告、会议记录等文档，NapierOne 则包含丰富的公共机构办公文档，这些文档在结构和样式上具有高度的专业性。
网络文档：从 CommonCrawl 数据库中收集了真实世界的各种专业文档，包括商业、教育、非营利、医疗等领域的提案、课程大纲、新闻通讯、技术手册和政策简报等，这大大增加了数据的结构和样式多样性。

为了确保数据适用于奖励模型的训练，研究员们对文档进行了预处理和筛选：将所有文档统一转换为 DOCX 格式，剔除异常或格式错误的文档，并使用 GPT-5 对文档结构和样式进行自动评分（分数范围0-10），保留评分高于8的文档。

最终，处理过的数据覆盖32个领域（如政府、教育、非营利机构、医疗、科学、法律、商业、学术与技术等）和267种文档类型（如职位说明、政府表格、政策文件、会议纪要、新闻稿、课程大纲等），形成了后续构建文档对的基础。

图3与图4分别展示了 Top 10 的领域分布与 Top 30 的文档类型分布，体现出了 DocPair 数据集的广度与多样性。

DocPair数据集Top10文档领域分布图

DocPair数据集Top30文档类型分布图

通过智能体扩展文档数据

为了获得文本内容相同但结构和样式不同的文档，研究团队设计了两类文档生成智能体：

文本到文档生成 agent：提取源文档的文本内容，去掉所有结构和样式信息，然后使用高级生成模型（如 GPT-4o、Claude Sonnet 4、GPT-5 等），以生成 python-docx 代码的方式产生 DOCX 文档。
结构与样式优化 agent：为了进一步优化合成文档的结构和样式，让智能体参考原始人类文档，研究员们采用两阶段优化——第一阶段生成优化计划，第二阶段修改 DOCX 文件的 python-docx 代码，实现结构和样式的提升。

文档排序与注释

在每个文档组中，文档都具有相同的文本内容。为此，研究团队构造了以下两种比较对：

人类文档 vs 合成文档：若文档对中有真实的人类文档，则直接将人类文档标为更专业。
合成文档 vs 合成文档：若文档对中两份文档均为合成文档，则以真实人类文档作为参考，使用 GPT-5 标注更专业的合成文档。

最终构建出的 DocPair 数据集包含11.7万对文档，为训练 DocReward 提供了坚实基础。

对于文档的多页视觉渲染图像输入 vision encoder，研究员们在语言模型上添加了一个回归头，在输入图像序列末尾添加了一个特殊的 <regression> token，该 token 对应的语言模型隐藏状态，经过回归头来预测文档的评分。

DocReward模型训练采用的Bradley-Terry损失函数示意图

训练采用 Bradley-Terry 损失（BT）用于从成对的偏好中进行学习。具体来说，DocReward 会分别输入每份文档的渲染页并输出评分，损失函数的目标是让模型对获胜文档的评分高于失败文档的评分，鼓励模型正确区分成对文档的结构和样式优劣。

实验与评测

研究团队进行了一系列的实验，以测试 DocReward 在评估文档结构与样式专业性方面的有效性。

实验一：偏好准确率评测

研究员们从前述整理的高质量文档中随机采样部分样本，构建了评估数据集。该评测集同时包含人类撰写的真实文档和由多种大语言模型生成的合成文档，以保证结构和样式的多样性。

对于每组内容相同但结构和样式不同的文档，人工专家根据其结构与样式的专业程度进行了排序。随后，研究团队将这些排序结果转换为473对文档对比样本，并在每对样本中标注出哪一份更优。

如表1所示，在上述评估数据集上，DocReward 模型取得了显著提升，超越了 GPT-4o、Claude Sonnet 4 和 GPT-5 等强基线。

DocReward与其他奖励模型偏好准确率对比表

其中，DocReward-7B 在整体人工偏好准确率上达到了89.22%，比表现最好的闭源基线 GPT-5（69.77%）高出19.45个百分点。即便在更具挑战性的“合成文档 vs 合成文档”场景下，DocReward-7B 依然保持了78.22%的准确率，高于 GPT-5 的64.85%。

这些结果说明，DocReward 能够有效捕捉文档结构与样式的质量信号，而这些往往是现有大语言模型所忽视的。

实验二：基于 DocReward 的文档生成改进

为了验证 DocReward 在实际文档生成任务中的价值，研究员们进一步开展了基于奖励模型的文档生成实验。在该实验中，文档生成智能体根据相同的文本内容生成了多份候选文档，随后由不同的奖励模型从中挑选出结构与样式最优的一份作为最终输出。

研究员们首先对比了三种奖励策略：随机选择、GPT-5 奖励模型以及 DocReward 奖励模型。接着，人工标注者根据文档的结构与样式对三种奖励策略生成的结果进行评估，并统计不同奖励模型之间的胜/负/平局比例。

实验结果如图5所示，随机奖励表现最差，仅在24.6%的对比中获胜；而 GPT-5 的胜率提升至37.7%；相比之下，DocReward 的胜率达60.8%，失败率仅为16.9%，显著优于两种基线方法。

这一结果表明，DocReward 所提供的奖励信号能更准确地反映人类在文档结构与样式上的偏好。将 DocReward 集成到文档生成流程中，即使不改变原有生成模型本身，也能显著提升最终输出文档的专业性，与人类偏好保持一致。

DocReward在文档生成改进中的对比图

为了更直观地展示 DocReward 对文档结构与样式专业性的感知能力，研究员们进一步进行了样例分析。本实验选取了一组内容相同但在结构和样式上存在差异的文档，如图6所示。

DocReward捕捉文档结构样式专业性差异的样例分析图

样例 (a)：文档的空白区域分配不合理：姓氏栏（Last Name）间距过小，而名字栏（First Name）间距过大，导致整体版面不平衡。部分关键信息项（如 Faculty/Department、Country、Country Code）未对齐，呈现出杂乱无章的排版效果。DocReward 对该文档的评分仅为1.21，反映其在结构与样式方面的较差表现。

样例 (b)：采用了类似表格的布局，整体比 (a) 更规整，但一级标题 “The teaching staff member” 字体过小，与正文缺乏明显区分，削弱了视觉层级感。同时，输入栏缺少边框，使信息定位不够直观，最终获得2.11的中等评分。

样例 (c)：展现了清晰、规范的文档结构——标题字号明显大于正文，留白合理，排版对齐规范，可读性强。该文档获得了最高分5.34。

从这些对比样例可以看出，DocReward 能够有效捕捉文档在结构与样式层面的专业性差异，其评分结果与人类的视觉判断一致。这进一步验证了 DocReward 在结构化、专业化文档评估中的可靠性与实际应用价值。

通过文档生成智能体的实验结果与样例分析可以发现，DocReward 能有效引导智能体生成更符合人类偏好的专业化文档，实现从信息调研到高质量文档展示的完整闭环。这一成果验证了 DocReward 在文档生成中的实际效用，也为 Microsoft Office 等核心办公软件的智能体化转型提供了有力支持。

DocReward：让智能体生成更专业文档的奖励模型，聚焦结构与样式优化

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

程序员必备：Prompt三大进阶技巧与实用模板

深度解析：Shopify 如何利用AI智能体团队实现万亿级电商商品精准分类

Meta研究：失败步骤比例（FSF）是AI思维链质量关键，颠覆“越长越好”的LLM推理直觉

掌握提示词四大核心要素：上下文、指令、数据、输出，AI文案高效创作秘诀

分类

快速链接

You Might Also Like

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复