Anthropic发布Agent SDK,截胡 OpenAI
此前,OpenAI 的 Agent Builder 消息已在网络上传开,TestingCatalog 曾爆料并试用过其可视化工作流工具。在业界普遍期待 OpenAI Dev Day 正式发布之际,Anthropic 突然宣布将 Claude Code SDK 更名为 Claude Agent SDK,并抢先推出了完整的智能体开发框架。
这一发布时机颇为微妙,带有“截胡”的意味,Anthropic 显然不愿让 OpenAI 独占智能体平台的主导权。

Claude Agent SDK 的核心理念是“赋予AI一台电脑”。其工作流程遵循一个清晰的循环:收集上下文、执行操作、验证结果并持续迭代。
上下文收集机制:
文件系统是上下文管理的核心。例如,邮件智能体会将历史对话存储在“Conversations”文件夹中,并通过grep、tail等Bash命令搜索所需信息。这种方式相比向量数据库的语义搜索,更具透明性和精确性。

子智能体(Subagents)的设计十分精妙,能够并行处理多个任务。每个子智能体拥有独立的上下文窗口,并仅将相关结果反馈给主智能体。例如,在搜索邮件时,可以同时启动多个子智能体以运行不同的查询。
SDK还内置了上下文压缩(Compaction)功能。当智能体长时间运行并接近上下文限制时,系统会自动总结之前的消息,有效避免因上下文溢出导致任务中断。
操作执行工具箱:
自定义工具(Tools)是主要的执行单元。SDK 建议将最频繁的操作设计为工具,例如邮件智能体的 fetchInbox、searchEmails。这些工具在 Claude 的上下文中十分显眼,将被优先考虑使用。
Bash 脚本提供了极大的灵活性。当用户邮件包含 PDF 附件时,Claude 能够编写代码下载、转换成文本并搜索其内容:

代码生成是 SDK 的一项强项。Claude.AI 的文件创建功能即依赖Python脚本生成Excel、PPT、Word等文档。代码的精确性和可复用性,使得复杂操作变得可靠。例如,创建邮件规则:

MCP(Model Context Protocol)集成解决了外部服务连接问题。无需编写集成代码或管理 OAuth,即可直接调用诸如 search_slack_messages、get_asana_tasks 等工具。
工作流程的三种验证方法:
规则验证是其中最可靠的方式。代码静态检查(linting)是典型的例子,例如,TypeScript 相较于 JavaScript,其类型检查能提供额外的反馈层。邮件地址验证、发送历史检查等功能均可通过规则得以实现。
视觉反馈主要应用于与用户界面(UI)相关的任务。在生成 HTML 邮件后,可截取图片以检查其布局、样式和内容层级是否准确无误。配合 Playwright 等 MCP 服务器,可实现整个视觉验证流程的自动化:

大型语言模型(LLM)的评判适用于模糊规则场景,例如让另一个模型评估邮件语气是否恰当。尽管这种方式可能存在稳定性不足和延迟,但在特定场景下仍具权衡价值。
通过该 SDK 可以构建多种类型的智能体,包括:金融智能体(处理复杂财务分析)、个人助理(管理日程、预订行程)、客服智能体(处理工单、调用 API)以及研究智能体(进行跨文档综合分析)等。
Anthropic 强调指出,此 SDK 的定位已远超传统的编程工具范畴。在其内部,该SDK已被广泛应用于深度研究、视频创作、笔记整理等多种非编程任务。
尽管两家公司部分人员来源相同,但其公司文化、发展路线及产品理念却截然不同。在智能体开发领域,两家公司也展现出显著的理念冲突:Anthropic 坚持技术优先路线,为专业开发者提供功能强大但具有一定技术门槛的 SDK;而 OpenAI 则致力于打造可视化拖拽平台,旨在降低智能体开发门槛,赋能更多用户构建 AI 智能体。一个选择专业化道路,一个走向大众化普及。这两大巨头的竞争结果,仍有待时间验证。
