Anthropic 发布 Claude Opus 4.6,强化金融分析能力

产品· 3 分钟阅读6 阅读

Anthropic 推出最新大语言模型 Claude Opus 4.6,专为金融、法律和智能体编程任务设计。该模型在多项基准测试中领先竞争对手,并引入 100 万 token 上下文窗口和代理团队等新功能,定价保持不变。

Anthropic 于周四发布了 Claude Opus 4.6,这是该公司迄今为止最先进的人工智能模型,具备处理复杂金融分析、法律研究和智能体编程任务的能力。此次发布距离该公司推出 Opus 4.5 仅三个月,显示出 AI 公司在争夺企业客户时激进的开发节奏。

新模型在多个行业基准测试中获得最高分,包括在 Terminal-Bench 2.0(一项评估智能体编程能力的测试)中获得 65.4% 的分数,以及在 GDPval-AA(一项衡量真实世界知识工作任务表现的基准测试)中获得 1,606 的 Elo 评分。根据与 Anthropic 合作在发布前测试该模型的 Artificial Analysis 的数据,该分数使 Opus 4.6 领先 OpenAI 的 GPT-5.2 约 150 分,这意味着在正面对比中约有 70% 的胜率。性能报告

Anthropic 发布面向企业的 Claude Opus 4.6

企业财务领域的重点布局

Anthropic 已将 Opus 4.6 定位为面向金融专业人士的工具,强调其在财务推理和多步骤任务完成方面的改进。在 Vals AI 推出的 Finance Agent 基准测试中(该测试评估模型对 SEC 文件和上市公司的研究分析能力),Opus 4.6 取得了 60.7% 的得分,相比前代产品提升了 5.47 个百分点。该模型在 TaxEval 测试中也以 76% 的成绩领先。

Anthropic 产品负责人 Scott White 表示:“Claude 已经从一个可以处理小任务或回答问题的模型,进化为能够处理大量实质性工作的模型。” White 在接受 TechCrunch 采访时表示,公司观察到金融分析师和产品经理正在与软件工程师一起使用 Claude Code,这使得该工具的影响力扩展到了最初的开发者受众之外。

面向知识工作者的新功能

Opus 4.6 推出了多项面向企业用户的功能。该模型现在支持 100 万 token 的上下文窗口(测试版),与 Anthropic 的 Sonnet 模型目前提供的容量相当,使用户能够处理更大的代码库和文档集。在该公司的智能编码工具 Claude Code 中,用户现在可以部署“代理团队”,将任务分配给多个并行协作的代理,而不是由单个代理按顺序处理工作。

该公司表示:“不再是一个代理按顺序完成任务,而是可以将工作分配给多个代理——每个代理负责自己的部分,并直接与其他代理协调。”

Anthropic 还面向 Max、Team 和 Enterprise 订阅用户推出了 Claude in PowerPoint 研究预览版,允许用户使用 Claude 作为侧边栏助手,直接在软件中创建和编辑演示文稿。该集成会先读取现有的模板、字体和布局,然后再生成新幻灯片,旨在保持品牌合规性。

定价保持稳定

尽管性能有所提升,Anthropic 保持了与 Opus 4.5 相同的定价,即每百万输入令牌 5 美元,每百万输出令牌 25 美元。然而,Artificial Analysis 指出,Opus 4.6 在自适应思考模式下完成 GDPval-AA 任务时,使用的令牌数比前代产品多 30-60%,使其成为“我们在 GDPval-AA 上测试过的成本最高的模型”。定价分析

该模型可通过 Claude API、Amazon Bedrock、Google Cloud Vertex AI 以及 Microsoft Foundry 获取。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会