谷歌发布升级版 Gemini 3 Deep Think AI 模型,在多项基准测试中创纪录
产品· 3 分钟阅读0 阅读
谷歌周三宣布对其 Gemini 3 Deep Think 推理模型进行重大升级,称其为最强大的 AI 系统,专为应对数学、科学和工程领域的研究挑战而设计。该模型在多项高难度基准测试中表现优异,包括在“人类最后的考试”上达到 48.4% 的准确率,并在 Codeforces 竞赛编程平台上超越全球绝大多数人类程序员。升级版模型现已向 Google AI Ultra 订阅用户开放。
谷歌于周三宣布对其 Gemini 3 Deep Think 推理模型进行重大升级,发布了该公司所称的最强大 AI 系统,用于应对数学、科学和工程领域的研究挑战。
升级后的模型在各项高难度基准测试中树立了新标准:在不使用工具的情况下,在“人类最后的考试”上达到 48.4% 的准确率,在经 ARC Prize 基金会验证的 ARC-AGI-2 抽象推理测试中达到 84.6%,在 Codeforces 竞赛编程平台上获得 3455 的 Elo 等级分。在 Codeforces 上,这一分数使 Deep Think 超越了全球除七位活跃人类程序员之外的所有选手。

谷歌与研究人员合作开发了升级版 Deep Think,用于解决“通常缺乏明确准则或单一正确答案”以及数据“杂乱或不完整”的问题,该公司在公告中表示。
早期测试者已经将该模型应用于实际挑战。罗格斯大学的数学家 Lisa Carbone 致力于研究连接爱因斯坦引力理论和量子力学的数学结构,她使用 Deep Think 审查了一篇技术论文,发现了“一个微妙的逻辑缺陷,而这一缺陷此前在人工同行评审中并未被注意到”。在杜克大学,Wang 实验室的研究人员利用该模型设计半导体晶体生长方法,成功创建了一种薄膜配方,满足了以往方法难以实现的精确规格要求。
除了学术基准测试表现外,谷歌还强调 Deep Think 在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分达到了金牌水平。这是在该模型 2025 年夏季国际数学奥林匹克竞赛成绩的基础上取得的进步,当时 Deep Think 的高级版本在竞赛规定的 4.5 小时时限内解决了六道题目中的五道,完全使用自然语言操作。
该模型在高级理论物理 CMT-Benchmark 测试中还获得了 50.5% 的分数。
升级版 Deep Think 现已向 Google AI Ultra 订阅用户开放,用户可通过 Gemini 应用使用该功能。这一订阅层级每月收费 250 美元,提供该公司最先进的 AI 能力。谷歌还首次通过早期访问计划,向精选的研究人员、工程师和企业开放 Gemini API 中的 Deep Think 功能。
此次发布正值专业化 AI 推理领域竞争加剧之际。Anthropic 本月早些时候发布了 Claude Opus 4.6,而 OpenAI 及其他竞争对手也在持续推进各自的推理模型。Google DeepMind 首席执行官 Demis Hassabis 一直坚持认为,通用人工智能(AGI)的实现还需要 5 到 10 年时间,这一估计比部分竞争对手的预测更为保守。
想了解 AI 如何助力您的企业?
免费获取企业 AI 成熟度诊断报告,发现转型机会
//
24小时热榜
免费获取 AI 落地指南
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断

