Thrive Holdings与OpenAI合作开发Tax AI,利用Codex打造能自我改进的税务智能体。通过专家反馈、生产痕迹和Codex迭代循环,该智能体在六周内将税务表单准确率从25%提升至86%,显著节省报税时间,为复杂专业领域的AI应用提供了可复用的设计蓝图。
现实系统中的智能体在投入生产后往往表现异常,出现难以预见的故障。过去,团队只能在上线后手动排查边缘案例、调整提示词,反馈循环缓慢且依赖工程师推进。但如今,借助精心设计的评估基础设施、一线专家的直接参与、真实生产环境以及Codex的前沿智能体能力,我们可以构建能自我改进的智能体。
过去六个月,OpenAI的前沿工程师与研究员携手Thrive Holdings的工程师,为Crete旗下的30多家会计师事务所共同开发了Tax AI系统。该系统并非依赖工程师逐一修复故障,而是利用Codex将生产使用行为转化为结构化信号,驱动自主改进。
在每个报税季,Crete的会计师要处理数万份税表,涉及数百万份底层文件。针对中高复杂度的税表,仅数据录入就需八小时。Tax AI上线后,自动处理了7000份1040和1041税表,将会计师准备时间节省约三分之一,草稿准确率高达97%,吞吐量提升约50%。更重要的是,系统在三个月内实现了显著自我进化。
以字段完成准确率为衡量指标:上线初期,仅25%的税表达到75%的正确字段完成率;六周后,这一比例升至86%。在90%和100%正确率层级上,系统进步更快。初期系统处理W-2和1099等简单表单,随后逐步攻克含K-1、附表等复杂案例,每次新能力节省的时间都比上一次更多。
会计师的直觉和判断决定了哪些错误值得重点关注。系统围绕专家的反馈来调整学习方向。
系统不仅记录输入和输出,还完整保存从源材料到提取字段、下游提交及专家修正的完整路径。
将生产问题转化为可追踪的评估目标,Codex可以调查根因、提出修改、通过针对性评估和回归测试验证,并生成拉取请求供工程师审核。
租赁物业收入需填写Schedule E。系统需要从手写笔记、邮件、电子表格等混乱源文件中提取字段,并映射到税务引擎。当会计师修正一个预测值时,系统会捕获差异、按类型分组重复故障,并将其打包成评估目标。随后,Codex会检查源包、提取模式、映射行为等环节,定位问题是未支持字段、提取遗漏还是映射缺口。它实施针对性修复,重新运行评估和回归套件,最终提交候选代码修改。这一闭环将重复的专家修正转化为可测量的工程任务。
租赁物业案例经历了约六周密集研发才达到90%的精确率和召回率,但期间积累的可复用模式(评审工件、评估规范、实现模式)使后续支持Schedule C和Schedule A更加容易。如今,同样的三阶段设计蓝图被用于Thrive Holdings旗下的记账、审计和IT帮助台自动化等场景。
一位去年花费180小时准备税表的高级会计师今年仅用了15小时。她将省下的时间用来给每位客户打电话解读税表,并提供新服务。这证明,自我改进的智能体能在专业领域持续学习,变得更加可靠和富有价值。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断