谷歌 Gemini 2.0 Flash Thinking:AI 推理的新纪元
在不断重塑 AI 领域格局的步伐中,谷歌近日发布了 Gemini 2.0 Flash Thinking,这款多模态推理模型以其快速且透明的复杂问题解决能力,引领着 AI 推理的新纪元。
谷歌 CEO 桑达尔·皮查伊在社交平台 X 上表示:“这是我们迄今为止最具思考力的模型。”
在开发者文档中,谷歌解释道:“思考模式能够在响应中展现出比基础 Gemini 2.0 Flash 模型更强大的推理能力。” 值得注意的是,基础模型仅仅在八天前才发布。
新模型支持高达 32,000 个输入词元(相当于 50-60 页文本),并能生成 8,000 个词元输出。在 Google AI Studio 的侧边栏中,谷歌宣称该模型最适合“多模态理解、推理”和“编码”。
模型的训练过程、架构、许可和成本等详细信息尚未公布。目前,在 Google AI Studio 中,每个词元的成本显示为零。
与 OpenAI 的竞争对手推理模型 o1 和 o1 mini 不同,Gemini 2.0 允许用户通过下拉菜单访问其逐步推理过程,为用户提供更清晰、更透明的模型得出结论的方式。
通过让用户了解决策过程,Gemini 2.0 打破了 AI 作为“黑箱”运作的长期疑虑,并使其与竞争对手推出的其他开源模型在许可条款方面(目前尚不清楚)达到同等水平。
我早期对该模型进行的简单测试表明,它能够快速准确地(在一到三秒内)回答一些对其他 AI 模型来说 notoriously tricky 的问题,例如计算单词“Strawberry”中字母 R 的数量(见上图)。
在另一个测试中,当比较两个小数(9.9 和 9.11)时,该模型系统地将问题分解成更小的步骤,从分析整数到比较小数位。
这些结果得到了第三方独立分析机构 LM Arena 的支持,该机构将 Gemini 2.0 Flash Thinking 评为所有 LLM 类别中表现最佳的模型。
与 OpenAI 的 o1 系列相比,Gemini 2.0 Flash Thinking 能够从一开始就处理图像。
o1 最初是一个纯文本模型,但后来扩展到包括图像和文件上传分析。目前,这两个模型都只能返回文本。
根据开发者文档,Gemini 2.0 Flash Thinking 目前不支持与 Google 搜索的接地或与其他 Google 应用和外部第三方工具的集成。
Gemini 2.0 Flash Thinking 的多模态能力扩展了其潜在的应用场景,使其能够处理结合不同类型数据的场景。
例如,在一个测试中,该模型解决了一个需要分析文本和视觉元素的谜题,展示了其在跨格式集成和推理方面的多功能性。
开发者可以通过 Google AI Studio 和 Vertex AI 利用这些功能,这两个平台都提供模型的实验环境。
随着 AI 领域的竞争日益激烈,Gemini 2.0 Flash Thinking 可能会标志着问题解决模型新时代的开始。它能够处理各种数据类型、提供可视化推理以及大规模执行的能力,使其成为推理 AI 市场中一个强劲的竞争者,与 OpenAI 的 o1 系列以及其他模型相抗衡。