谷歌 Gemini 2.0 闪耀登场:AI 思维的全新突破
谷歌悄然发布了其热门人工智能模型 Gemini 的重大更新,Gemini 2.0 闪耀登场,展现出令人惊叹的推理能力,在数学和科学任务中创下新的性能记录,并提供免费的替代方案,挑战 OpenAI 的付费服务。
最新发布的 Gemini 2.0 Flash Thinking 模型,在 Google AI Studio 中以“Exp-01-21”的实验代号亮相,在 AIME(美国数学邀请赛)中取得了 73.3% 的成绩,在 GPQA Diamond 科学基准测试中获得了 74.2% 的得分。这些成绩表明,Gemini 2.0 在高级推理方面取得了显著进步,展现出谷歌在人工智能领域不断增强的实力。
“我们已经在这个领域耕耘了十多年,从 AlphaGo 等项目开始,现在看到这些想法与最强大的基础模型的结合,令人兴奋。”谷歌 DeepMind 首席执行官 Demis Hassabis 在 X.com(前身为 Twitter)上发布的一篇文章中写道。
我们最新的 Gemini 2.0 Flash Thinking 模型更新(可在此处访问:https://t.co/Rr9DvqbUdO)在 AIME(数学)和 GPQA Diamond(科学)基准测试中分别取得了 73.3% 和 74.2% 的成绩。感谢大家的反馈,这代表着我们自首次发布以来取得的快速进展……
– Demis Hassabis (@demishassabis) 2025 年 1 月 21 日
Gemini 2.0 最引人注目的特点是其能够处理高达一百万个文本标记,是 OpenAI 的 o1 Pro 模型的五倍,同时保持更快的响应时间。这种扩展的上下文窗口允许模型同时分析多个研究论文或大型数据集,这将改变研究人员和分析师处理大量信息的方式。
“作为第一个实验,我拿了一些宗教和哲学文本,让 Gemini 2.0 Flash Thinking 将它们编织在一起,提取出新颖独特的见解。”AI 研究员 Dan Mac 在 X.com 上的一篇文章中写道。“它总共处理了 970,000 个标记。输出结果非常令人难以置信。”
Gemini 2.0 的发布正值人工智能行业发展的重要时刻。OpenAI 最近发布了其 o3 模型,在 GPQA Diamond 基准测试中取得了 87.7% 的成绩。然而,谷歌决定在测试阶段免费提供其模型(使用有限制),这可能会吸引寻求 OpenAI 月费 200 美元服务的替代方案的开发人员和企业。
基准测试结果显示,谷歌最新的 Gemini 2.0 Flash Thinking 模型在数学、科学和推理任务方面显著优于早期版本。(图片来源:谷歌 DeepMind)
谷歌 DeepMind 首席科学家 Jeff Dean 强调了模型可靠性的改进:“我们正在不断迭代,提高可靠性,减少模型思想和最终答案之间的矛盾。”他写道。
Gemini 2.0 还包括原生代码执行功能,允许开发人员直接在系统中运行和测试代码。这一功能,加上改进的矛盾防护措施,使 Gemini 2.0 Flash Thinking 成为研究和商业应用的有力竞争者。
行业分析师指出,谷歌专注于解释其推理过程,有助于解决人们日益关注的人工智能透明度和可靠性问题。与传统的“黑盒”模型不同,Gemini 2.0 Flash Thinking 展示了其工作过程,使用户更容易理解和验证其结论。
我们正在不断迭代,提高可靠性,减少模型思想和最终答案之间的矛盾。
在 https://t.co/sw0jY6k74m 上查看 gemini-2.0-flash-thinking-exp-01-21