用Codex构建自我改进的税务AI代理

真实世界的系统在生产环境中的表现与实验室截然不同，往往会在部署后暴露出难以预料的缺陷。团队通常要等到上线后才能发现这些问题，然后花费数周检查边缘案例、调整提示词，并将生产反馈转化为持久的产品改进。这个反馈循环是手动的、缓慢的，只有工程师介入才能推动改进。但如今，通过精心设计的评估基础设施、直接接触从业者和真实环境，以及Codex前沿的智能体能力，我们可以构建能够自我改进的AI智能体。

本文将详细解析我们如何使用Codex构建这类智能体。过去六个月，OpenAI的前沿部署工程师和研究员与Thrive Holdings的工程师合作，为Crete⁠(opens in a new window)旗下30多家会计事务所共同打造了Tax AI，以协助处理日益复杂的税务申报。Tax AI并非依赖工程师发现和修复每个故障，而是利用Codex将生产使用情况转化为结构化信号，从而推动自主改进。

每个纳税季，Crete的从业者需要准备数万份纳税申报表，涉及数百万份底层文件。对于中等至复杂程度的申报，仅数据输入每份就需要八小时，通常包括混乱的数据源、往年文件以及手动提取和计算。他们指出，报税季最繁忙的时段，税务准备是一个重大瓶颈。

为解决这一问题，Tax AI在本纳税季处理了参与试点的Crete事务所的7000份报税表。该系统自动化了1040和1041申报表中大量耗时环节。但比效率提升更引人注目的是，系统本身已经出现了可衡量的进步——它比三个月前首次部署的版本要好得多。

可衡量的自我改进

在Tax AI中，从业者上传源文件以及任何客户特定备注。Tax AI随后创建一份供审核的税务引擎提交文件。它为从业者节省了约三分之一的税务准备时间，起草的申报表准确率高达97%，并将处理量提高了约50%，为从业者腾出了更多与客户相处的时间。

我们可以通过衡量Tax AI在无需后续修改的情况下完成申报的准确率来量化这一改进。我们通过检查有多少申报表达到了75%、90%或100%的正确字段填写率来衡量准确率。上线之初，只有四分之一的申报表达到75%的正确字段填写率，但六周内，这一比例上升至86%。在90%和100%的正确字段填写率水平上，系统表现出更快的增长。这些阈值让我们能够实际了解不同申报表还需要多少从业者后续跟进。

起初，Tax AI处理的是较简单的任务，如W-2和1099表。随着纳税季推进，它开始处理更复杂的申报表，包括K-1表、各种附表以及更困难的边缘案例。每项新能力节省的时间都比前一项更多，因为所承担的任务更复杂，手动操作更耗时。时至今日，我们仍能看到持续的进步。

接下来，我们将介绍我们的团队如何共同设计Tax AI，使其能够自我改进。这依赖于三个关键支柱：1）专家从业者反馈，2）生产追踪（从输入到最终输出的结构化历史记录），3）基于定制评估的Codex驱动迭代循环，以实现持续、更快的产品开发。我们希望我们的经验对其他构建者有所帮助，尤其是在从业者专业知识对塑造整体系统质量和运行数据至关重要的领域。

随着Tax AI扩展到更复杂的申报文件，达到75%、90%和100%填写率的申报表占比在整个纳税季持续上升。

问题所在

当我们深入到税务准备的更困难部分（K-1表，出租房地产附表，以及需要跨多个源文件对值进行核对的税务表格）时，很明显真正的挑战在于产品能否使复杂的生产故障变得可见、可理解且可操作。

在产品早期，大多数修正都是手动的。从业者可以纠正系统错误，但产品没有捕捉到完整的上下文：申报前更改的值可能反映了真正的提取遗漏、映射问题、缺失的产品支持或预期的工作流噪声。区分这些情况仍然需要工程团队的跟进。工程师可以使用编码智能体，但系统尚未设计为在改进循环中有意义地利用AI。我们没有足够的信号来识别应该攻克哪个山头。

我们的方法：三部分循环

这促使我们围绕三个支柱设计系统：

紧贴从业者： 实际工作的人需要引导产品学习什么。他们的直觉和理解揭示了哪些错误重要，并帮助确定工作流的哪些部分值得下一步关注。
构建产品使生产产生证据： 产品不仅需要捕捉输入和输出，还需要捕捉从源材料、提取字段及其出处，到下游提交和专家修正的完整路径。
创建Codex驱动的改进循环： 一旦生产问题变得可见并结构化，它们可以转化为发现、定制评估和范围明确的工程任务。然后Codex可以帮助调查、提出变更、针对目标评估和回归评估进行验证，并以比纯手动迭代周期更快的速度推动产品改进。

下面以租赁物业为例，展示该循环在实践中如何运作，引导您了解从业者修正如何变为结构化发现，再变为评估目标，最后变为Codex范围明确的工程任务。

租赁物业示例

租赁物业收入在个人纳税申报表的附表E中报告。从工程角度看，提取任务说起来简单，但做起来困难。系统必须读取混乱的源材料（手写笔记、电子邮件、电子表格和其他客户文件），提取系统能够可靠映射到税务引擎的租赁物业字段，并保留足够的证据，以便从业者批准或更正结果。下面的简化示例展示了这些源文件和提取的输出可能是什么样子。

一个租赁物业源包被规范化，形成带有引用的字段，然后映射到下游税务引擎概念。

1. 从业者的修正揭示了故障

智能体预测值与已提交申报表的实际值之间的差异可能反映了真正的提取遗漏，但也可能代表从业者的偏好、税务引擎中来自上一年申报表的值，或者在申报工作流中其他地方引入或更改的值。从业者帮助我们辨别这些情况，以便我们确定哪些操作需要从业者修正或阻止了提交。

由于我们能够详细看到这些修正，我们将审查过程从一个终端的、失败后的步骤转变为一个持续的学习循环。我们设计了工作流，将专家操作作为结构化数据捕获。现在，每一次干预都会记录Tax AI提出了什么，从业者修改了什么，以及最终进入已提交申报表的内容，从而为产品的改进循环提供输入。

2. 产品追踪将修正转化为评估

对于像租赁物业这样复杂的工作流，系统必须保留源文件和已提交申报表之间发生的一切。在此路径上，文件被整理、拆分和分类；租赁物业字段被提取并附带源材料引用；这些值被映射到税务引擎；从业者可能在提交前对其进行修正。这些产品级别的追踪使得调查故障发生的位置成为可能。为了将从业者修正转化为有用的评估目标，系统通过三个步骤进行处理：

捕获差异： Tax AI的输出与已提交申报表进行比较，生成字段级别的审查行，捕获预期值、预测值以及差异是否看起来可操作。
分组相关故障： 相似的审查行被分组，以将重复的产品故障与预期的工作流噪声区分开来。例如，重复的从业者修正可能表明Tax AI经常遗漏“公平租赁天数”字段，处理“其他费用”不当，或在同一源包中混淆多个租赁物业。
将重复模式转化为评估目标： 经过审查和衡量后，重复的发现成为清晰的评估目标，供Codex改进。

租赁物业审查行将重复的产品故障与预期的噪声分开，然后将可操作的情况转化为评估目标，为Codex提供一个可以攀登的山头。

3. 发现成为Codex可以攀登的山头

第三个支柱是创建一个能够对这些新评估采取行动的工程循环。这正是Codex的核心作用所在。

假设我们的评估流水线标记出Tax AI始终遗漏“公平租赁天数”字段，而从业者可靠地填写该字段。由于这个发现已经被打包成一个有针对性的评估集，包含代表性的源包和预期输出，Codex可以直接在产品框架内调查根本原因。

Codex不仅仅处理了一个较差的最终输出。它共同检查了追踪、评估、代码仓库和技能：

调查流水线： 检查源包、提取模式、映射器行为以及代码路径，以确定问题是不支持的字段、遗漏的提取模式、源选择问题、映射器差距还是评分器问题。
实施有针对性的修复： 扩展提取模式，改进租赁物业文档的源选择，更新税务引擎映射器，或者如果预期的流程噪声被计为故障则优化评分器。
验证并提出： 重新运行目标评估，运行更广泛的回归测试套件，并提出候选拉取请求供工程审查。
闭环： 将重复的从业者修正转化为可衡量的工程任务。如果证据不明确或无法安全自动化，则该案例会路由回产品团队，而不是强行通过循环。

端到端的自我改进循环：生产追踪暴露出重复的字段级别修正，这些修正成为故障信号，Codex可以结合追踪、评估、仓库和技能进行检查。可操作的模式成为有边界的评估和候选产品变更；模糊的案例路由回工程师审查。每个交付的改进都会为下一个循环创造新的生产证据。

如何使用Codex构建这个循环

租赁物业示例代表了一个更广泛的可重用模式：利用生产工件和追踪来改进智能体的能力。给定来自生产数据的经过审查的发现、源追踪、预期的税务引擎输出、相关代码示例和评估命令作为一组输入，Codex可以在数周和数月内显著提升性能和准确性。这建立在我们在驯服工程和Symphony中描述的原则之上，这些原则阐述了如何使任务对Codex清晰可读、提供范围明确的上下文和工具，并将验证和人工审查作为环境的一部分。

不过，这些证据并不会自动成为Codex任务。从业者的修正可能反映了提取遗漏、映射问题、不支持的产品行为、税务判断或预期的工作流噪声。只有在重复的差异被审查并分组为可操作的发现后，系统才会将它们转化为具有明确成功条件的有边界的任务。

我们将这种自动化应用于产品的一个有边界的层。该层执行提取并将源文档映射到税务工作流中。工程师仍然负责架构、产品决策和发布。从业者通过他们已有的工作（修正提取的值、审查申报表、批准最终文件）来引导改进循环。

对于Codex而言，结果不是一个模糊的警报，而是一个范围明确的工程任务，包含证据、可编辑的产品表面和明确的验证关卡。一个代表性的租赁物业任务的上下文可以总结如下：

一个有边界的Codex任务环境将可写的工作树[1]与只读的生产上下文[5]分开。工作树包含Codex可以检查或修改的范围明确的产品表面[2]、定义成功的目标评估和回归评估[3]、以及可重用的技能/文档，它们编码了如何运行任务并尊重先前的决策[4]。只读上下文提供生产追踪、源文档、Tax AI预测、最终申报表和税务引擎字段文档，以便Codex调查故障而不会改变底层证据。

扩展到新领域

同样的循环也适用于租赁物业之外。租赁物业花费了大约六周时间和大量的工程监督才达到90%的精度和召回率，但这项工作产生了可重用的抽象、审查工件、评估约定和实现模式，使得支持类似复杂的附表（如附表C和附表A）变得更加容易。

Tax AI证明了构建自我改进智能体的路径。从业者通过提供服务产生高价值的反馈信号。产品工作流将这些信号保存为结构化证据。基于评估的工程系统在改进投入生产之前对其进行验证。而智能体驱动的循环使系统保持持续的自我改进状态。

Thrive Holdings的结构使我们能够在特定行业复制这种环境。Holdings既是所有者又是运营商，因此我们的联合工程团队能够直接与从业者和来自Crete等企业内部的生产数据合作，不是作为供应商，而是作为合作伙伴。这意味着技术、产品和服务都处于同一屋檐下，帮助我们更快地行动并构建卓越的产品。

一位去年在税务准备上花费了180小时的高级会计师今年只花了15小时。她将节省下来的部分时间用于给每一位客户打电话，逐一讲解他们的申报表——这种高触感的服务在一年前是不可能实现的。剩下的时间她用来拓展新客户和新的服务项目。

我们的团队现在正将Tax AI的同一三部分设计作为蓝图，在Thrive Holdings⁠(opens in a new window)的其他领域构建工作流：包括簿记和审计等会计工作流，以及IT帮助台自动化等运营工作流。跨领域、跨行业，自我改进智能体有着更广阔的前景。最好的智能体是由人引导、学习在时间推移中变得更强、更值得信赖、更有价值的。

要了解更多关于参与此项目OpenAI团队的信息，请联系我们。

原文链接：OpenAI Blog
本文由前途科技编辑整理

用Codex构建自我改进的税务AI代理

可衡量的自我改进

随着Tax AI扩展到更复杂的申报文件，达到75%、90%和100%填写率的申报表占比在整个纳税季持续上升。

问题所在

我们的方法：三部分循环

这促使我们围绕三个支柱设计系统：

紧贴从业者： 实际工作的人需要引导产品学习什么。他们的直觉和理解揭示了哪些错误重要，并帮助确定工作流的哪些部分值得下一步关注。
构建产品使生产产生证据： 产品不仅需要捕捉输入和输出，还需要捕捉从源材料、提取字段及其出处，到下游提交和专家修正的完整路径。
创建Codex驱动的改进循环： 一旦生产问题变得可见并结构化，它们可以转化为发现、定制评估和范围明确的工程任务。然后Codex可以帮助调查、提出变更、针对目标评估和回归评估进行验证，并以比纯手动迭代周期更快的速度推动产品改进。

租赁物业示例

一个租赁物业源包被规范化，形成带有引用的字段，然后映射到下游税务引擎概念。

1. 从业者的修正揭示了故障

2. 产品追踪将修正转化为评估

捕获差异： Tax AI的输出与已提交申报表进行比较，生成字段级别的审查行，捕获预期值、预测值以及差异是否看起来可操作。
分组相关故障： 相似的审查行被分组，以将重复的产品故障与预期的工作流噪声区分开来。例如，重复的从业者修正可能表明Tax AI经常遗漏“公平租赁天数”字段，处理“其他费用”不当，或在同一源包中混淆多个租赁物业。
将重复模式转化为评估目标： 经过审查和衡量后，重复的发现成为清晰的评估目标，供Codex改进。

租赁物业审查行将重复的产品故障与预期的噪声分开，然后将可操作的情况转化为评估目标，为Codex提供一个可以攀登的山头。

3. 发现成为Codex可以攀登的山头

第三个支柱是创建一个能够对这些新评估采取行动的工程循环。这正是Codex的核心作用所在。

Codex不仅仅处理了一个较差的最终输出。它共同检查了追踪、评估、代码仓库和技能：

调查流水线： 检查源包、提取模式、映射器行为以及代码路径，以确定问题是不支持的字段、遗漏的提取模式、源选择问题、映射器差距还是评分器问题。
实施有针对性的修复： 扩展提取模式，改进租赁物业文档的源选择，更新税务引擎映射器，或者如果预期的流程噪声被计为故障则优化评分器。
验证并提出： 重新运行目标评估，运行更广泛的回归测试套件，并提出候选拉取请求供工程审查。
闭环： 将重复的从业者修正转化为可衡量的工程任务。如果证据不明确或无法安全自动化，则该案例会路由回产品团队，而不是强行通过循环。

如何使用Codex构建这个循环

扩展到新领域

要了解更多关于参与此项目OpenAI团队的信息，请联系我们。

原文链接：OpenAI Blog
本文由前途科技编辑整理

可衡量的自我改进

问题所在

我们的方法：三部分循环

租赁物业示例

1. 从业者的修正揭示了故障

2. 产品追踪将修正转化为评估

3. 发现成为Codex可以攀登的山头

如何使用Codex构建这个循环

扩展到新领域

想了解 AI 如何助力您的企业？

24小时热榜

Cognition AI再融10亿美元，估值飙至260亿

OpenAI基金会投入2.5亿美元应对AI就业冲击

FAA 叫停 SpaceX 星舰飞行

亚马逊任命 Amwell 联合创始人执掌医疗业务

比亚迪押注人形机器人成新核心业务

Codex驱动自改进税务AI

戴尔赢得五角大楼97亿美元软件合同

谷歌工程师涉内幕交易被控

免费获取 AI 落地指南

可衡量的自我改进

问题所在

我们的方法：三部分循环

租赁物业示例

1. 从业者的修正揭示了故障

2. 产品追踪将修正转化为评估

3. 发现成为Codex可以攀登的山头

如何使用Codex构建这个循环

扩展到新领域

想了解 AI 如何助力您的企业？

24小时热榜

Cognition AI再融10亿美元，估值飙至260亿

OpenAI基金会投入2.5亿美元应对AI就业冲击

FAA 叫停 SpaceX 星舰飞行

亚马逊任命 Amwell 联合创始人执掌医疗业务

比亚迪押注人形机器人成新核心业务

Codex驱动自改进税务AI

戴尔赢得五角大楼97亿美元软件合同

谷歌工程师涉内幕交易被控

免费获取 AI 落地指南