前途科技前途科技
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 洞察
    • 政策
    • 初创
  • 研究资源
    • 案例研究
    • 报告
    • 工具推荐
    • 术语词典
  • 服务
  • 关于
联系我们

谷歌发布升级版 Gemini 3 Deep Think AI 模型,在多项基准测试中创纪录

产品2026年2月13日· 3 分钟阅读0 阅读

谷歌周三宣布对其 Gemini 3 Deep Think 推理模型进行重大升级,称其为最强大的 AI 系统,专为应对数学、科学和工程领域的研究挑战而设计。该模型在多项高难度基准测试中表现优异,包括在“人类最后的考试”上达到 48.4% 的准确率,并在 Codeforces 竞赛编程平台上超越全球绝大多数人类程序员。升级版模型现已向 Google AI Ultra 订阅用户开放。

谷歌于周三宣布对其 Gemini 3 Deep Think 推理模型进行重大升级,发布了该公司所称的最强大 AI 系统,用于应对数学、科学和工程领域的研究挑战。

升级后的模型在各项高难度基准测试中树立了新标准:在不使用工具的情况下,在“人类最后的考试”上达到 48.4% 的准确率,在经 ARC Prize 基金会验证的 ARC-AGI-2 抽象推理测试中达到 84.6%,在 Codeforces 竞赛编程平台上获得 3455 的 Elo 等级分。在 Codeforces 上,这一分数使 Deep Think 超越了全球除七位活跃人类程序员之外的所有选手。

谷歌新 AI 在“人类最后的考试”中取得高分

谷歌与研究人员合作开发了升级版 Deep Think,用于解决“通常缺乏明确准则或单一正确答案”以及数据“杂乱或不完整”的问题,该公司在公告中表示。

早期测试者已经将该模型应用于实际挑战。罗格斯大学的数学家 Lisa Carbone 致力于研究连接爱因斯坦引力理论和量子力学的数学结构,她使用 Deep Think 审查了一篇技术论文,发现了“一个微妙的逻辑缺陷,而这一缺陷此前在人工同行评审中并未被注意到”。在杜克大学,Wang 实验室的研究人员利用该模型设计半导体晶体生长方法,成功创建了一种薄膜配方,满足了以往方法难以实现的精确规格要求。

除了学术基准测试表现外,谷歌还强调 Deep Think 在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分达到了金牌水平。这是在该模型 2025 年夏季国际数学奥林匹克竞赛成绩的基础上取得的进步,当时 Deep Think 的高级版本在竞赛规定的 4.5 小时时限内解决了六道题目中的五道,完全使用自然语言操作。

该模型在高级理论物理 CMT-Benchmark 测试中还获得了 50.5% 的分数。

升级版 Deep Think 现已向 Google AI Ultra 订阅用户开放,用户可通过 Gemini 应用使用该功能。这一订阅层级每月收费 250 美元,提供该公司最先进的 AI 能力。谷歌还首次通过早期访问计划,向精选的研究人员、工程师和企业开放 Gemini API 中的 Deep Think 功能。

此次发布正值专业化 AI 推理领域竞争加剧之际。Anthropic 本月早些时候发布了 Claude Opus 4.6,而 OpenAI 及其他竞争对手也在持续推进各自的推理模型。Google DeepMind 首席执行官 Demis Hassabis 一直坚持认为,通用人工智能(AGI)的实现还需要 5 到 10 年时间,这一估计比部分竞争对手的预测更为保守。

标签:GoogleAI 推理基准测试

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

阿联酋联手Colossal打造基因“诺亚方舟”
TOP1

阿联酋联手Colossal打造基因“诺亚方舟”

马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力
TOP2

马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力

3

Anthropic 报告:Claude Opus 4.6 在测试中协助武器研究

23小时前
Anthropic 报告:Claude Opus 4.6 在测试中协助武器研究
4

美国联邦政府及35州上诉谷歌反垄断裁决,寻求更严厉处罚

11小时前
美国联邦政府及35州上诉谷歌反垄断裁决,寻求更严厉处罚
5

Adobe股价跌至52周新低,AI颠覆担忧加剧

4小时前
Adobe股价跌至52周新低,AI颠覆担忧加剧
6

得州电网因AI热潮重审数据中心审批

8小时前
得州电网因AI热潮重审数据中心审批
7

蚂蚁集团开源多模态AI模型,性能超越Gemini 2.5

23小时前
蚂蚁集团开源多模态AI模型,性能超越Gemini 2.5
8

Meta 斥资 100 亿美元在印第安纳州建 AI 数据中心

21小时前
Meta 斥资 100 亿美元在印第安纳州建 AI 数据中心
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号