Codex驱动自改进税务AI

现实系统中的智能体在投入生产后往往表现异常，出现难以预见的故障。过去，团队只能在上线后手动排查边缘案例、调整提示词，反馈循环缓慢且依赖工程师推进。但如今，借助精心设计的评估基础设施、一线专家的直接参与、真实生产环境以及Codex的前沿智能体能力，我们可以构建能自我改进的智能体。

过去六个月，OpenAI的前沿工程师与研究员携手Thrive Holdings的工程师，为Crete旗下的30多家会计师事务所共同开发了Tax AI系统。该系统并非依赖工程师逐一修复故障，而是利用Codex将生产使用行为转化为结构化信号，驱动自主改进。

可量化的自我改进

在每个报税季，Crete的会计师要处理数万份税表，涉及数百万份底层文件。针对中高复杂度的税表，仅数据录入就需八小时。Tax AI上线后，自动处理了7000份1040和1041税表，将会计师准备时间节省约三分之一，草稿准确率高达97%，吞吐量提升约50%。更重要的是，系统在三个月内实现了显著自我进化。

以字段完成准确率为衡量指标：上线初期，仅25%的税表达到75%的正确字段完成率；六周后，这一比例升至86%。在90%和100%正确率层级上，系统进步更快。初期系统处理W-2和1099等简单表单，随后逐步攻克含K-1、附表等复杂案例，每次新能力节省的时间都比上一次更多。

三阶段循环设计

支柱一：贴近一线专家

会计师的直觉和判断决定了哪些错误值得重点关注。系统围绕专家的反馈来调整学习方向。

支柱二：让生产过程留下证据

系统不仅记录输入和输出，还完整保存从源材料到提取字段、下游提交及专家修正的完整路径。

支柱三：Codex驱动的改进循环

将生产问题转化为可追踪的评估目标，Codex可以调查根因、提出修改、通过针对性评估和回归测试验证，并生成拉取请求供工程师审核。

典型案例：租赁物业附表

租赁物业收入需填写Schedule E。系统需要从手写笔记、邮件、电子表格等混乱源文件中提取字段，并映射到税务引擎。当会计师修正一个预测值时，系统会捕获差异、按类型分组重复故障，并将其打包成评估目标。随后，Codex会检查源包、提取模式、映射行为等环节，定位问题是未支持字段、提取遗漏还是映射缺口。它实施针对性修复，重新运行评估和回归套件，最终提交候选代码修改。这一闭环将重复的专家修正转化为可测量的工程任务。