Anthropic 公布“Project Deal”实验结果:69 个 Claude 智能体在一周内全程自主完成 186 笔交易,累计成交超 4000 美元。实验还发现,强模型(Claude Opus 4.5)在经济博弈中碾压弱模型,且弱势方毫不知情。
Anthropic 于周四公布了 "Project Deal" 项目的实验结果。这是一项为期一周的实验:69 个 Claude AI 智能体在公司旧金山办公室搭建的一个类 Craigslist 二手交易市场中,全程自主地为 Anthropic 员工买卖商品、洽谈价格——一旦交易启动,便无需任何人工介入。智能体共促成 186 笔交易,在逾 500 件上架商品中累计成交金额刚刚超过 4,000 美元,涵盖的商品五花八门,从滑雪板到装有 19 个乒乓球的塑料袋,应有尽有。
该实验于 2025 年 12 月在公司旧金山办公室进行。每位员工的智能体获得 100 美元预算,并通过一次简短的入职访谈被赋予专属 "性格"。此后,智能体全程以自然语言在 Slack 上发布商品信息、回应还价、达成协议,无需任何预设的谈判规则。anthropic
已发布
2026 年 4 月 25 日

除了证明智能体间的商业交易切实可行,Anthropic 还悄悄进行了一项对照实验,将其前沿模型 Claude Opus 4.5 与最小模型 Claude Haiku 4.5 进行比较。结果表明,模型能力的高低会直接转化为经济上的优劣势:由 Opus 代理的卖方平均每件商品多赚 2.68 美元,而 Opus 代理的买方则平均少付 2.45 美元。当 Opus 卖方遭遇 Haiku 买方时,平均成交价为 24.18 美元;而在 Opus 对 Opus 的交易中,平均成交价仅为 18.63 美元。
然而,由较弱模型代理的参与者对自身所处的劣势毫无察觉。两组的公平性评分几乎相同——在 7 分制量表中,Opus 交易组为 4.05 分,Haiku 交易组为 4.06 分。


这项实验恰逢经济学家和行业分析师纷纷预测 AI 智能体驱动的商业模式将迎来爆发式增长之际。麦肯锡预测,到 2030 年,AI 智能体商务可能将全球零售支出中的 3 至 5 万亿美元重新导向新渠道;弗雷斯特则预计,今年年底前,20% 的 B2B 卖家将面临 AI 智能体主导的报价谈判。
Anthropic 对此表示了充分的认识。该公司写道:"如果现实市场中出现 '智能体质量' 差距——没有理由认为这不会发生——那么处于劣势的人可能根本意识不到自己吃了亏。"研究人员还指出了越狱攻击和提示词注入的风险——这些技术可能导致 AI 智能体在商业场景中泄露私人信息或执行非预期操作。anthropic
尽管存在上述隐忧,仍有 46% 的参与者表示愿意为类似服务付费。Anthropic 指出,有关 AI 智能体代表人类进行交易的政策和法律框架 "目前根本还不存在。但这项实验表明,那样的世界已经近在眼前"。



免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断