谷歌周四推出 Gemini 3.1 Pro,这是 Gemini 系列首次进行 .1 增量更新,推理性能大幅提升。在 ARC-AGI-2 基准测试中,新模型得分 77.1%,是前代的两倍多。该模型成本竞争力强,不到竞争对手前沿模型的一半,已在谷歌生态系统中以预览版形式推出,适用于开发者和消费者。
谷歌于周四发布了 Gemini 3.1 Pro,标志着 Gemini 系列首次进行 .1 增量更新,在推理性能上实现了飞跃。该公司表示,在关键基准测试中,其能力是前代产品的两倍多。
这款新模型在 ARC-AGI-2 上取得了 77.1% 的验证得分,该基准测试用于评估模型解决新颖逻辑模式的能力,而 Gemini 3 Pro 的得分为 31.1%。来自 Artificial Analysis 的独立测试发现,Gemini 3.1 Pro 目前在其智能指数的十项评估中领先六项,包括用于智能体编码的 Terminal-Bench Hard、用于推理的 Humanity's Last Exam,以及用于科学推理的 GPQA-Diamond。investing+3

此次发布使谷歌能够在与 OpenAI 和 Anthropic 的 AI 竞赛中重新站稳脚跟。根据 Artificial Analysis 的数据,Gemini 3.1 Pro 在运行综合基准测试时的成本不到这些竞争对手前沿模型的一半,同时保持与前代相同的定价,即每百万输入 token 2 美元,每百万输出 token 12 美元。solvimon+1
谷歌在公告中表示:“3.1 Pro 是一个更智能、更强大的基准模型,用于解决复杂问题。”该模型将谷歌上周升级的 Gemini 3 Deep Think 的核心推理改进整合到了一个更易于开发者和消费者使用的版本中。constellationr+2
谷歌首席执行官桑达尔·皮查伊和 DeepMind 首席执行官戴密斯·哈萨比斯都在社交媒体上分享了 Artificial Analysis 的研究结果。x+1
Gemini 3.1 Pro 从周四开始在谷歌生态系统中以预览版形式推出。开发者可以通过 Google AI Studio 中的 Gemini API、Gemini CLI、智能体开发平台 Google Antigravity 以及 Android Studio 访问该模型。企业客户可通过 Vertex AI 和 Gemini Enterprise 获得访问权限。cloud.google+1
订阅了 Google AI Pro 和 Ultra 的消费者可以通过 Gemini 应用使用该模型,并享有更高的使用限额,而 NotebookLM 的访问权限仅限 Pro 和 Ultra 订阅用户。investing+1
谷歌强调了该模型的实际应用场景,包括“复杂系统合成”,即该模型能够在复杂 API 与用户友好设计之间架起桥梁。其中一个演示展示了构建一个实时航空航天仪表板,可视化国际空间站的轨道。该模型还擅长根据文本提示生成动画 SVG 图形,生成基于代码的可视化效果而非像素图像。helentech+2
该公司表示,此次预览版发布将有助于在更广泛推出之前验证更新内容,并计划进一步改进智能体工作流程。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断