谷歌 Gemini 2.0 闪念模型挑战 OpenAI

谷歌 Gemini 2.0 Flash Thinking：AI 推理的新纪元

在不断重塑 AI 领域格局的步伐中，谷歌近日发布了 Gemini 2.0 Flash Thinking，这款多模态推理模型以其快速且透明的复杂问题解决能力，引领着 AI 推理的新纪元。

谷歌 CEO 桑达尔·皮查伊在社交平台 X 上表示：“这是我们迄今为止最具思考力的模型。”

在开发者文档中，谷歌解释道：“思考模式能够在响应中展现出比基础 Gemini 2.0 Flash 模型更强大的推理能力。” 值得注意的是，基础模型仅仅在八天前才发布。

新模型支持高达 32,000 个输入词元（相当于 50-60 页文本），并能生成 8,000 个词元输出。在 Google AI Studio 的侧边栏中，谷歌宣称该模型最适合“多模态理解、推理”和“编码”。

模型的训练过程、架构、许可和成本等详细信息尚未公布。目前，在 Google AI Studio 中，每个词元的成本显示为零。

与 OpenAI 的竞争对手推理模型 o1 和 o1 mini 不同，Gemini 2.0 允许用户通过下拉菜单访问其逐步推理过程，为用户提供更清晰、更透明的模型得出结论的方式。

通过让用户了解决策过程，Gemini 2.0 打破了 AI 作为“黑箱”运作的长期疑虑，并使其与竞争对手推出的其他开源模型在许可条款方面（目前尚不清楚）达到同等水平。

我早期对该模型进行的简单测试表明，它能够快速准确地（在一到三秒内）回答一些对其他 AI 模型来说 notoriously tricky 的问题，例如计算单词“Strawberry”中字母 R 的数量（见上图）。

在另一个测试中，当比较两个小数（9.9 和 9.11）时，该模型系统地将问题分解成更小的步骤，从分析整数到比较小数位。

这些结果得到了第三方独立分析机构 LM Arena 的支持，该机构将 Gemini 2.0 Flash Thinking 评为所有 LLM 类别中表现最佳的模型。

与 OpenAI 的 o1 系列相比，Gemini 2.0 Flash Thinking 能够从一开始就处理图像。

o1 最初是一个纯文本模型，但后来扩展到包括图像和文件上传分析。目前，这两个模型都只能返回文本。

根据开发者文档，Gemini 2.0 Flash Thinking 目前不支持与 Google 搜索的接地或与其他 Google 应用和外部第三方工具的集成。

Gemini 2.0 Flash Thinking 的多模态能力扩展了其潜在的应用场景，使其能够处理结合不同类型数据的场景。

例如，在一个测试中，该模型解决了一个需要分析文本和视觉元素的谜题，展示了其在跨格式集成和推理方面的多功能性。

开发者可以通过 Google AI Studio 和 Vertex AI 利用这些功能，这两个平台都提供模型的实验环境。

随着 AI 领域的竞争日益激烈，Gemini 2.0 Flash Thinking 可能会标志着问题解决模型新时代的开始。它能够处理各种数据类型、提供可视化推理以及大规模执行的能力，使其成为推理 AI 市场中一个强劲的竞争者，与 OpenAI 的 o1 系列以及其他模型相抗衡。