2024 年 12 月 13 日 上午 9:04
图片来源:VentureBeat 通过 ChatGPT
订阅我们的每日和每周新闻简报,获取有关行业领先 AI 报道的最新更新和独家内容。了解更多
本周,谷歌发布了 Gemini 2.0 Flash,为用户提供了一种与周围环境的视频进行实时交互的方式,这为企业和消费者与技术互动方式的重大转变奠定了基础。
此次发布——以及来自 OpenAI、微软和其他公司的公告——是“多模态 AI”这一技术领域正在发生的变革性飞跃的一部分。这项技术允许您获取进入您的计算机或手机的视频(或音频或图像),并询问有关它的问题。
这也标志着谷歌及其主要竞争对手——OpenAI 和微软——在 AI 能力方面争夺主导地位的竞争加剧。但更重要的是,它似乎正在定义下一代交互式、自主计算的时代。
在我看来,人工智能的这一刻就像“iPhone 时刻”,我指的是 2007-2008 年苹果发布 iPhone 的时候,iPhone 通过与互联网的连接和流畅的用户界面,将人们口袋里的强大计算机变成了日常生活的必需品。
虽然 OpenAI 的 ChatGPT 在 2022 年 11 月凭借其强大的类人聊天机器人开启了这一轮人工智能热潮,但谷歌在 2024 年年底的发布,感觉像是这一时刻的重大延续——在许多观察人士担心人工智能技术改进可能放缓的时候。
谷歌的 Gemini 2.0 Flash 提供了突破性的功能,允许通过智能手机捕获的视频进行实时交互。与之前的阶段性演示(例如谷歌在 5 月份的 Project Astra)不同,这项技术现在可以通过谷歌的 AI Studio 提供给普通用户使用。
我鼓励您亲自尝试一下。我用它来查看和与我的周围环境进行交互——今天早上对我来说是厨房和餐厅。您可以立即看到这为教育和其他用例带来了突破。您可以理解为什么内容创作者 Jerrod Lew 昨天在 X 上对使用 Gemini 2.0 实时 AI 在 Adobe Premiere Pro 中编辑视频感到惊讶。“这简直太疯狂了,”他说,在谷歌在几秒钟内指导他如何添加基本的模糊效果后,即使他是一个新手用户。
知名 AI 开发人员、Red Dragon AI 联合创始人 Sam Witteveen 获得了 Gemini 2.0 Flash 的早期测试权限,他强调 Gemini Flash 的速度——它比谷歌迄今为止的旗舰产品 Gemini 1.5 Pro 快两倍——以及“极其便宜”的价格,使其不仅成为开发人员测试新产品的展示平台,而且成为企业管理 AI 预算的实用工具。(需要明确的是,谷歌尚未公布 Gemini 2.0 Flash 的定价。它目前处于免费预览阶段。但 Witteveen 是根据谷歌 Gemini 1.5 系列的先例做出假设的。)
对于开发人员来说,这些多模态实时功能的实时 API 提供了巨大的潜力,因为它们能够无缝集成到应用程序中。该 API 也可供使用;一个演示应用程序可用。以下是谷歌针对开发人员的博客文章。
程序员 Simon Willison 将流式 API 称为下一级:“这些东西直接来自科幻小说:能够与一个能够通过你的摄像头‘看到’事物的能力强大的 LLM 进行音频对话,是那些‘我们生活在未来’的时刻之一。”他注意到你如何要求 API 启用代码执行模式,这使得模型能够编写 Python 代码、运行它并将结果作为其响应的一部分进行考虑——所有这些都是自主未来的组成部分。
这项技术显然是新应用程序生态系统和用户期望的先兆。想象一下,能够在演示过程中分析实时视频、建议编辑或实时进行故障排除。
是的,这项技术对消费者来说很酷,但企业用户和领导者也需要理解。这些新功能是完全新的工作方式和与技术交互方式的基础——暗示着即将到来的生产力提升和创意工作流程。
周三发布的谷歌 Gemini 2.0 Flash 正值谷歌及其主要竞争对手纷纷发布最新技术的时刻,他们都在争先恐后地在年底前推出自己的最新技术。他们都承诺提供面向消费者的多模态功能——实时视频交互、图像生成和语音合成——但其中一些功能尚未完全成熟,甚至尚未完全可用。
这种匆忙的原因之一是,一些公司为其员工提供奖金,以在年底前交付关键产品。另一个原因是,当他们率先推出新功能时,可以获得吹嘘的权利。他们可以通过率先行动获得大量用户,正如 OpenAI 在 2022 年所展示的那样,当时其 ChatGPT 成为历史上增长最快的消费产品。尽管谷歌拥有类似的技术,但它没有准备好公开发布,并且措手不及。此后,观察人士一直严厉批评谷歌行动缓慢。
以下是其他公司在过去几天宣布的消息,所有这些消息都有助于开启这个多模态 AI 的新时代。
- OpenAI 的高级语音模式与视觉:昨天推出,但仍在推广,它提供了实时视频分析和屏幕共享等功能。虽然很有前景,但早期访问问题限制了其直接影响。例如,即使我是 Plus 订阅者,我也无法访问它。
- 微软的 Copilot Vision:上周,微软推出了类似的技术,但仅供其一小部分 Pro 用户使用。其浏览器集成设计暗示了企业应用程序,但缺乏 Gemini 2.0 的精致和可访问性。微软还发布了一个快速、强大的 Phi-4 模型。
- Anthropic 的 Claude 3.5 Haiku:Anthropic 迄今为止一直与 OpenAI 在大型语言模型 (LLM) 领导地位方面展开激烈竞争,它在多模态方面还没有提供任何突破性的东西。它刚刚发布了 3.5 Haiku,以其效率和速度著称。但它专注于降低成本和缩减模型规模,这与谷歌最新发布的功能以及 OpenAI 的语音模式与视觉功能形成对比。
虽然这些技术具有革命性,但挑战依然存在:
- 可访问性和可扩展性:OpenAI 和微软都遇到了推广瓶颈,谷歌必须确保避免类似的陷阱。谷歌提到,其实时流媒体功能(Project Astra)的上下文记忆限制为最多 10 分钟的会话记忆,尽管这可能会随着时间的推移而增加。
- 隐私和安全:分析实时视频或个人数据的 AI 系统需要强大的保障措施来维护信任。谷歌的 Gemini 2.0 Flash 模型内置了原生图像生成功能,可以访问第三方 API,并能够利用谷歌搜索和执行代码。所有这些功能都很强大,但也可能使人们在玩弄这些东西时意外泄露私人信息变得非常容易。
- 生态系统集成:随着微软利用其企业套件,谷歌将自己锚定在 Chrome 中,问题仍然是:哪个平台为企业提供了最无缝的体验?
然而,所有这些障碍都比不上这项技术的潜在益处,毫无疑问,开发人员和企业公司将在未来一年争先恐后地拥抱它们。
正如开发人员 Sam Witteveen 和我在周三晚上谷歌宣布后录制的播客中所讨论的那样,Gemini 2.0 Flash 确实是一个令人印象深刻的发布,标志着多模态 AI 已经成为现实。谷歌的进步树立了新的基准,尽管这种优势可能是非常短暂的。OpenAI 和微软紧追不舍。我们仍然处于这场革命的早期阶段,就像 2008 年一样,尽管 iPhone 发布了,但尚不清楚谷歌、诺基亚和 RIM 将如何应对。历史表明,诺基亚和 RIM 没有应对,它们都消亡了。谷歌做出了非常好的反应,并且一直在与 iPhone 竞争。
同样,很明显,微软和 OpenAI 正在与谷歌进行这场竞争。与此同时,苹果决定与这项技术合作,本周宣布进一步与 ChatGPT 集成——但它肯定没有试图在这场新的多模态产品时代中获胜。
在我们的播客中,Sam 和我还讨论了谷歌在浏览器领域所拥有的特殊战略优势。例如,其 Project Mariner 发布,一个 Chrome 扩展程序,允许您执行现实世界的网页浏览任务,其功能甚至超过了 Anthropic(称为 Computer Use)和微软的 OmniParser(仍在研究中)提供的竞争技术。(确实,Anthropic 的功能让您能够更多地访问计算机的本地资源。)所有这些都让谷歌在 2005 年推动自主 AI 技术发展方面领先一步,即使微软似乎在向企业提供自主解决方案的实际执行方面领先。AI 代理可以自主地完成复杂的任务,只需最少的人工干预——例如,它们很快就会在执行电子商务、股票交易甚至房地产购买之前完成高级研究任务和数据库检查。
谷歌专注于让这些 Gemini 2.0 功能对开发人员和消费者都可用,这是一个明智之举,因为它确保了它正在用一个全面的计划来应对行业。到目前为止,谷歌一直背负着没有像微软那样积极关注开发人员的声誉。
决策者需要考虑的问题不是是否采用这些工具,而是如何快速将它们集成到工作流程中。看到未来一年将带我们走向何方将会非常有趣。请务必观看下面的视频,了解我们对企业用户的见解: