Anthropic 发布了一项基于数百万次人机交互的大规模研究,发现用户正逐步延长允许 AI 智能体独立工作的时长。Claude Code 最长会话时间在三个月内从不到 25 分钟增长到超过 45 分钟,表明信任通过使用经验建立。研究还揭示了用户监督模式的转变,并呼吁加强部署后监控。
Anthropic 于周一发布了一项研究,分析了人类与 AI 智能体在实际应用中的协作方式。该公司称这是首次对 Claude Code 及其公共 API 在真实部署中自主性如何演变进行的大规模实证研究。
这项基于数百万次人机交互的研究发现,用户正在逐步延长允许 AI 智能体独立工作的时长。在第 99.9 百分位数上,Claude Code 运行时间最长的会话在三个月内几乎翻了一倍,从不到 25 分钟增长到超过 45 分钟。这种增长在各个模型版本发布期间平稳进行,表明信任是通过使用经验建立的,而不仅仅是通过模型升级。

一项核心发现涉及监督与经验之间不断变化的关系。在大约 750 次会话后,超过 40% 的用户会完全自动批准 Claude 的操作。然而矛盾的是,经验丰富的用户也会更频繁地中断代理——从新手用户约 5% 的回合上升到资深用户的 9%。
研究表明,这反映了从逐个操作审批向有针对性监控的转变。Anthropic 在其分析中写道:“经验丰富的用户从批准单个代理操作转向在需要时进行监控和干预。”
也许更引人注目的发现是,Claude Code 在复杂任务中主动暂停请求澄清的频率是人类中断它的两倍多。Anthropic 强调这种自我暂停行为——它称之为“不确定性识别”——是一项关键的安全功能。
研究发现,大约 73% 的工具交互涉及某种形式的人工监督,而只有 0.8% 的智能体操作是不可逆的。软件工程在应用场景中占据主导地位,约占所有智能体驱动的工具调用的一半。
然而,研究指出,智能体正越来越多地部署在更高风险的领域,包括网络安全、金融、医疗保健和生产系统。虽然大多数应用仍属于低风险范畴,但这些新兴应用场景拓展了 Anthropic 所称的“风险与自主性的前沿地带”。
该公司认为,其研究发现使得实施严格监管要求的理由变得更加复杂。“那些规定特定交互模式的监管要求,比如要求人工批准每一个操作,会造成使用摩擦,但未必能带来安全效益,”研究报告指出。
Anthropic 的核心结论是,自主性是“由模型、用户和产品共同构建的”——这意味着仅凭部署前的评估无法全面表征自主性。该公司呼吁业界投资建设部署后监控基础设施,以应对智能体能力的持续扩展。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断