前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
Agent生态

Anthropic颠覆认知:给AI模型“松绑”反而更听话,提升智能体性能的实践与思考

NEXTECH
Last updated: 2025年10月8日 上午7:04
By NEXTECH
Share
37 Min Read
SHARE

openai 向左,anthropic 向右。一个围绕应用,一个围绕Agent。

Contents
开篇:智能体开发的关键转折一、核心理念:给模型松绑什么是真正的智能体?为什么要”松绑”?实践案例:Web Search二、开发实践:如何开始构建智能体推荐起点:Claude Code SDK关键工具和功能三、企业应用:业务价值与规模化用例选择:超越技术思考从原型到生产:SDK 可以规模化吗?可观测性:长运行任务的关键四、平台优势:为什么用官方平台?不只是”更方便”,而是”更强大”从 API 到完整生态系统五、未来展望:自我改进的飞轮近期路线图长期愿景:给 Claude 一台计算机结语:从编排者到赋能者

Anthropic官方视频:关于他们如何制作智能体的思考。

虽然在推广他们的SDK,但里面还是有不少思考

本文对播客及英文原文进行了整理和排版,以便读者更好地理解。

原址:https://www.youtube.com/watch?v=XuvKFsktX0Q&t=5s

开篇:智能体开发的关键转折

在 AI 智能体开发领域,一个反直觉的现象正在发生:过去帮助模型的”脚手架”,现在反而成了阻碍。

You Might Also Like

AI赋能商业决策:智能体、预算优化与意图识别的实践洞察
最接地气的AI科普:从家政阿姨看懂AI Agent与MCP智能体概念
2025年AI前瞻:智能体崛起、电力瓶颈与全球新格局深度解析
基于LangGraph的智能临床问诊助手实践:技术架构与LLM工作流分阶段实现

当 Anthropic 团队发现一些客户升级到新模型后,性能提升并不明显时,他们深入调查发现了问题所在——不是模型不够强,而是开发者自己构建的约束框架,限制了模型智能的发挥。

这个发现引发了整个智能体开发理念的根本转变:从”如何约束模型”转向”如何解放模型”。


一、核心理念:给模型松绑

什么是真正的智能体?

在 Anthropic 的定义中,智能体不是简单的自动化工作流,而是:

模型具有自主性,能够自己选择调用哪些工具、处理结果、决定下一步行动。

这个定义的关键在于”自主性”——不是开发者预定义路径,而是模型根据情况动态决策。

为什么要”松绑”?

过去的问题:脚手架成为负担

早期开发者为了让模型”可控”,会构建大量框架:

  • • 预定义执行路径
  • • 设置各种护栏和边界
  • • 用复杂编排逻辑引导模型

这在模型能力有限时是必要的,但随着模型智能提升,这些约束反而:

  • • 阻碍模型发挥真实能力
  • • 限制模型发现新的解决方案
  • • 让新模型的提升无法体现

四种典型束缚及其问题

① 工作流束缚(思维层)

预定义 Claude 应该走的路径。

例如规定”先搜索 → 再分析 → 最后总结”这样的固定流程。

问题:路径过于僵化,模型无法根据实际情况灵活调整策略。当遇到特殊场景时,预设的流程可能完全不适用。

② 重框架束缚(工具层)

使用复杂笨重的 Agent 开发框架(如 LangChain)。

这类框架往往:

  • • 概念复杂:Chain、Agent、Memory、Tool 等大量抽象概念
  • • 代码量大:为了适配框架需要写大量配置代码
  • • 升级受限:模型变强了,但框架反而成为性能瓶颈

对比案例:

  • •LangChain 实现搜索:需要学习 Tool 概念 → 配置 Agent → 设置 Memory → 写一堆胶水代码
  • •Claude 直接实现:开启 Web Search 开关 → 一行搞定

③ 脚手架束缚(实现层)

各种控制流程的辅助代码。

例如:手写工具输出解析逻辑、用 if-else 判断下一步执行什么、各种异常处理和重试机制。

问题:开发者以为是在”帮助”模型,实际上是在限制模型的自主决策能力。模型本身已经能处理这些逻辑,额外的脚手架反而添乱。

④ 过度规则束缚

设置了太多不必要的约束和规则。

问题:限制了 AI 的创造力,让它无法找到更优的解决方案。

现在的理念:工具而非框架

Brad Abrams(平台 PM 负责人)的核心观点:

“模型已经有很多能力,事实上即使是当前一代模型,里面的智能远比我们能够解锁的要多。如果你只是给模型它需要的工具,让它自由,让它能够以正确的方式使用这些工具,你就会得到很好的结果。”

实践案例:Web Search

Anthropic 推出服务器端 web search 工具后,一个有趣的现象出现了:

开发者只需要:

  • • 打开 web search 开关
  • • 给模型一个研究任务

模型会自主:

  • • 决定搜索什么关键词
  • • 评估哪个搜索结果更相关
  • • 对有价值的链接进行 web fetch
  • • 基于获取的信息决定下一步搜索策略
  • • 完成深度研究任务

整个过程几乎不需要额外的提示词或编排逻辑。

这揭示了一个深刻的转变:系统智能的应用点,从开发者的编排转向模型的自主决策。


二、开发实践:如何开始构建智能体

推荐起点:Claude Code SDK

对于刚开始构建智能体的开发者,Anthropic 强烈推荐 Claude Code SDK。

常见误解:“这不是编码工具吗?我不是在做编码应用。”

真实情况:Claude Code SDK 本质上是一个通用智能体 harness(循环运行时)。

当团队从中移除编码特定部分时,他们发现剩下的只是:

  • • 一个智能体循环
  • • 访问文件系统的能力
  • • 一组 Linux 命令行工具
  • • 编写和执行代码的能力

这些都是通用能力,可以解决各种各样的问题。

SDK 的核心价值:

  • • 自动管理 prompt caching
  • • 处理工具调用循环
  • • 让开发者从更高的抽象层开始
  • • 避免每个人重复实现相同的基础设施

关键工具和功能

1. 上下文管理:整理模型的”桌面”

问题:长运行的智能体任务可能产生大量工具调用,每个占用成百上千 tokens。

典型场景:一个研究任务可能触发 10-100 次工具调用,每次调用结果占用 100-1000 tokens,很快就会导致上下文窗口爆满,影响模型的专注度和性能。

解决方案:

① 智能删除旧工具调用

模型可以自主移除已经处理过的、不再需要的工具调用结果。

⚠️关键原则:只删除几轮之前已经完成决策的工具调用,千万不要删除刚调用的内容,否则模型会重复调用同一个工具。

② 墓碑标记(Tombstone)机制

删除工具调用时不是完全抹除,而是留下一个简短的”墓碑标记”。

例如:删除一次搜索工具调用后,留下注释:“这里曾调用过 Web Search 工具”

作用:

  • • 告诉模型”这里曾经有什么”,避免完全失忆
  • • 防止模型重复调用已经用过的工具
  • • 保持上下文的连续性,同时大幅减少 token 占用

③ 保留最近工具调用

始终保留最近几次的工具调用结果,确保模型有足够信息做当前决策。

类比:就像整理桌面和笔记本——把旧资料归档(墓碑),保留最近的工作材料(最近调用),清理后可以更专注当前任务。

2. 智能体记忆:从经验中学习

人类 vs 模型的本质差异:

对比维度 人类 传统模型
第1次执行 基础表现 A级表现
第5次执行 显著提升✓ A级表现(几乎相同)
学习能力 从经验中成长 每次都是”新手”

这就是问题所在:人类会越做越好,模型却在原地踏步。

记忆工具的突破:

让模型能够像人类一样”从经验中学习”。

工作机制:

  1. 1.执行中做笔记:模型在任务过程中主动记录经验
  • • “Wikipedia 的信息比较可靠”
  • • “应该优先使用数据库 A”
  • • “这个 API 调用方式更稳定”
  • 2.任务前读笔记:下次执行类似任务时,先查看历史笔记
  • 3.基于经验决策:根据过往积累的知识做出更优选择

技术实现:

  • • Anthropic 提供记忆工具 API
  • • 开发者决定存储位置(云存储、本地数据库等)
  • • 在控制权和便利性之间灵活平衡

效果:智能体能够持续学习,任务执行质量随时间提升,真正像人类员工一样从经验中成长。

3. Web Search & Fetch:自主研究能力

模型可以:

  • • 自主决定搜索策略
  • • 评估搜索结果质量
  • • 深度抓取相关内容
  • • 迭代优化研究路径

三、企业应用:业务价值与规模化

用例选择:超越技术思考

Caitlin Lesse(工程负责人)的建议:

企业在选择智能体用例时,应该认真思考:

  • •业务价值是什么?
  • • 真的会节省这么多工程时间吗?
  • • 能消除多少手工工作?
  • • 期望的结果是什么?

能够清晰阐明预期结果,有助于更好地定义智能体的范围。

从原型到生产:SDK 可以规模化吗?

回答:可以

Claude Code SDK 提供的是一个智能体循环运行时,可以部署到任何你需要的位置。

但 Anthropic 的野心不止于此——他们正在构建:

  • • 更高阶的抽象,让企业开箱即用
  • • 规模化的可观测性工具
  • • 帮助企业真正”提升智能天花板”的平台能力

可观测性:长运行任务的关键

挑战:

  • • 智能体可能执行数十甚至上百次工具调用
  • • 如何确保它在做正确的事?
  • • 如何审计和调试?
  • • 如何优化提示词和工具配置?

解决方案: Anthropic 将可观测性作为平台重点方向,让企业能够:

  • • 追踪智能体的决策过程
  • • 审计自主行为
  • • 调整和优化性能

这对于需要部署可信智能体的企业至关重要。


四、平台优势:为什么用官方平台?

不只是”更方便”,而是”更强大”

内部协同优势:

  • • 平台团队与研究团队在同一屋檐下
  • • 确保抽象层最适配模型能力
  • • 每次模型发布,平台能力自动提升

Caitlin 的观点:

“如果目标是帮助用户真正提升智能天花板,那么更高阶的抽象不仅仅是让它更容易,而是我们如何真正帮助你获得最好的结果。因为我们和研究在同一个房间,我们知道如何确保我们的抽象、我们的智能体循环将非常强大,非常擅长与 Claude 一起工作。”

从 API 到完整生态系统

Claude 开发者平台(前身 Anthropic API)的演变:

过去:简单的模型访问接口

现在:完整平台,包含:

  • • Messages API
  • • Prompt Caching(提示词缓存)
  • • Batch API(批处理)
  • • Web Search & Fetch
  • • Code Execution(代码执行)
  • • Context Management(上下文管理)
  • • Agent Memory(智能体记忆)

验证:连 Claude Code 这样的内部产品都构建在公共平台之上。


五、未来展望:自我改进的飞轮

近期路线图

Caitlin 描绘的愿景:

将三个要素结合起来:

  1. 1.更高阶的抽象– 更简单地获得最佳结果
  2. 2.可观测性– 从长运行任务获得洞察
  3. 3.记忆能力– 从经验中学习

这将形成一个自我改进的飞轮:

  • • 智能体不只是完成任务
  • • 而是随着时间越做越好
  • • 持续优化自己的表现

长期愿景:给 Claude 一台计算机

Brad 最兴奋的方向:

“如果我们在 Anthropic 雇用一个员工,但不给他们一台计算机,他们不会非常成功。现在基本上每个人都在使用没有计算机的 Claude。”

当前进展:

  • • 代码执行工具:模型可以在 VM 上编写和执行代码
  • • 处理图像、分析 Excel、创建数据可视化

未来想象:

  • • 持久的计算环境
  • • 模型可以按需组织文件
  • • 按自己想要的方式设置工具
  • • 真正像一个有完整工作环境的员工

结语:从编排者到赋能者

Anthropic 的智能体开发理念,核心是一个思维方式的转变:

过去:开发者是编排者

  • • 设计执行路径
  • • 设置约束边界
  • • 用脚手架引导模型

现在:开发者是赋能者

  • • 提供工具而非框架
  • • 解放而非约束
  • • 让模型发挥真实智能

Alex Albert 在访谈开头的一句话,揭示了这个转变的深层原因:

“作为开发者,我的创造力在某个时候就结束了。我只能想到这么多用例,但模型,面对任何人带来的任何东西,都会找到方法去做那件事。”

当我们给模型足够的工具和自由,它能发现我们想不到的解决方案。

这就是”给模型松绑”的真正含义——不是放任不管,而是相信模型的智能,为其提供发挥能力所需的一切,然后让它自主决策。

随着模型能力持续提升,这个理念将变得越来越重要。智能体的未来,不是更重的框架,而是更轻的约束、更强的工具、更大的自由。

TAGGED:AgentAnthropic智能体模型松绑
Share This Article
Email Copy Link Print
Previous Article Kindle Paperwhite 电子阅读器 年度首降!亚马逊Kindle Paperwhite Prime会员日史无前例大促
Next Article 20251008070629395.jpg 太阳帆飞船革新空间天气预警:SWIFT星座如何抵御“太空龙卷风”?
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251202135921634.jpg
英伟达20亿美元投资新思科技,AI芯片设计革命加速
科技
20251202130505639.jpg
乌克兰国家AI模型选定谷歌Gemma,打造主权人工智能
科技
20251202121525971.jpg
中国开源AI新突破:DeepSeek V3.2模型性能比肩GPT-5
科技
20251202112744609.jpg
马斯克预言:AI三年内解决美国债务危机,可信吗?
科技

相关内容

Dify V1.9.2 Docker-compose环境下Redis端口解析异常
Agent生态

Dify V1.9.2版本问题深度剖析与回退建议:Agent生态稳定性挑战

2025年10月27日
Deep Research Agent需求分布图1
AI 前沿技术

深度解析Deep Research技术:前沿架构、核心技术与未来展望

2025年10月21日
ACP 作为面向 Agent 的开放商业标准
Agent生态

Stripe 联手 OpenAI 发布 ACP:深入探讨 Agent 支付战略与 AI 经济影响

2025年11月7日
Claude Agent SDK 智能体反馈循环示意图
Agent生态

Anthropic发布Claude Agent SDK:抢先OpenAI,揭秘核心理念与功能

2025年10月7日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up