订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
谷歌今天发布了 Gemini 2.0,标志着人工智能系统迈向独立完成复杂任务的雄心勃勃的一步,并引入了原生图像生成和多语言音频功能——这些功能使这家科技巨头能够在日益激烈的争夺人工智能主导地位的竞争中与 OpenAI 和 Anthropic 直接竞争。
此次发布几乎是在谷歌首次发布 Gemini 后的整整一年,正值人工智能发展的一个关键时刻。这些新的“代理”人工智能系统不再仅仅是响应查询,而是能够理解细微的语境,提前计划多个步骤,并代表用户采取监督行动。
在最近的一次新闻发布会上,Gemini 产品管理总监 Tulsee Doshi 展示了实时图像生成和多语言对话,概述了该系统的增强功能。“Gemini 2.0 带来了增强的性能和新的功能,例如原生图像和多语言音频生成,”Doshi 解释道。“它还具有原生智能工具使用功能,这意味着它可以直接访问 Google 产品,例如搜索,甚至执行代码。”
首个版本以 Gemini 2.0 Flash 为中心,这是一个实验版本,谷歌声称其运行速度是其前身的两倍,同时超越了更强大模型的功能。这代表着一项重大的技术成就,因为以前的速度提升通常是以降低功能为代价的。
也许最重要的是,谷歌推出了三个基于 Gemini 2.0 架构的原型人工智能代理,展示了该公司对人工智能未来的愿景。Project Astra 是一款更新的通用人工智能助手,展示了其跨多种语言进行复杂对话,同时访问 Google 工具并保留先前交互的上下文记忆的能力。
“Project Astra 现在拥有长达 10 分钟的会话记忆,并且可以记住您过去与它的对话,因此您可以获得更便捷、更个性化的体验,”Google DeepMind 的产品总监 Bibo Xu 在现场演示中解释道。该系统在语言之间平滑过渡,并通过 Google 搜索和地图访问实时信息,这表明了以前在消费级人工智能产品中从未见过的集成水平。
对于开发者和企业客户,谷歌推出了 Project Mariner 和 Jules,这两个专门的人工智能代理旨在自动化复杂的技术任务。Project Mariner 作为 Chrome 扩展程序展示,在针对现实世界网络任务的 WebVoyager 基准测试中取得了令人印象深刻的 83.5% 的成功率——这比以前尝试自主网络导航有了显著提高。
“Project Mariner 是一款早期的研究原型,探索了代理在浏览网络和采取行动方面的能力,”Google Labs 产品管理总监 Jaclyn Konzelmann 说。“在针对 WebVoyager 基准测试进行评估时,该基准测试测试了代理在端到端、现实世界网络任务上的性能,Project Mariner 取得了令人印象深刻的 83.5% 的结果。”
支持这些进步的是 Trillium,谷歌的第六代张量处理单元 (TPU),该单元今天将向云客户全面开放。这款定制的人工智能加速器代表着对计算基础设施的大量投资,谷歌在一个单一的网络结构中部署了超过 100,000 个 Trillium 芯片。
AI Studio 和 Gemini API 团队的产品经理 Logan Kilpatrick 在新闻发布会上强调了这项基础设施投资的实际影响。“Flash 使用量的增长超过了 900%,这真是令人难以置信,”Kilpatrick 说。“你知道,我们在过去几个月里发布了六个实验模型,现在有数百万开发者正在使用 Gemini。”
谷歌向自主代理的转变可能是自 OpenAI 发布 ChatGPT 以来人工智能领域最重大的战略转变。虽然竞争对手一直专注于增强大型语言模型的功能,但谷歌押注的是未来属于能够主动导航数字环境并以最少的人工干预完成复杂任务的人工智能系统。
这种能够思考、计划和行动的人工智能代理的愿景标志着与当前反应式人工智能助手的范式发生了背离。这是一个冒险的赌注——自主系统固有地带来了更大的安全问题和技术挑战——但如果成功,它可能会重塑竞争格局。该公司对定制硅和基础设施的大量投资表明,它已准备好在这个新方向上积极竞争。
然而,向更自主的人工智能系统的过渡引发了新的安全和伦理问题。谷歌强调了其对负责任开发的承诺,包括与可信用户进行广泛测试以及内置安全措施。该公司逐步推出这些功能的方法,从开发者访问和可信测试人员开始,表明其意识到了部署自主人工智能系统所涉及的潜在风险。
此次发布正值谷歌面临来自竞争对手的越来越大的压力以及对人工智能安全的高度审查的关键时刻。微软和 OpenAI 今年在人工智能开发方面取得了重大进展,而 Anthropic 等其他公司也获得了企业客户的认可。
“我们坚信,构建人工智能的唯一途径是从一开始就负责任,”Gemini API 产品总监 Shrestha Basu Mallick 在新闻发布会上强调说。“随着我们推进模型和代理,我们将继续优先考虑将安全和责任作为我们模型开发过程的关键要素。”
随着这些系统越来越能够在现实世界中采取行动,它们可能会从根本上改变人们与技术互动的方式。Gemini 2.0 的成功不仅将决定谷歌在人工智能市场中的地位,还将决定人工智能发展在行业向更自主的系统过渡时的总体轨迹。
一年前,当谷歌发布第一版 Gemini 时,人工智能领域被能够进行巧妙对话但难以完成现实世界任务的聊天机器人所主导。现在,随着人工智能代理开始迈出走向自主的第一步,该行业正处于另一个拐点。问题不再是人工智能是否能理解我们,而是我们是否准备好让人工智能代表我们采取行动。谷歌押注我们已经做好了准备——而且它押注很大。