这篇文章最初发表在我们的 AI 周报《算法》中。要第一时间在您的收件箱中收到此类文章,请在此处注册。
AI 的新纪元:多模态模型的崛起
与 AI 聊天机器人对话已经是 2022 年的事了。最新的 AI 热门玩具利用了多模态模型,这些模型可以同时处理多种内容,例如图像、音频和文本。
一个典型的例子是 Google 的 NotebookLM。NotebookLM 是 Google 一年前低调推出的一个研究工具。几周前,Google 为 NotebookLM 添加了一个名为 Audio Overview 的 AI 播客工具,允许用户创建关于任何主题的播客。例如,添加您 LinkedIn 个人资料的链接,AI 播客主持人将在九分钟内吹捧您的成就。这项功能已成为意外的爆款。我在这里写了人们使用它的各种奇特而奇妙的方式。
为了让您体验一下,我创建了我们 125 周年纪念杂志的播客。AI 在挑选杂志的一些亮点并向您介绍它们的内容方面做得很好。请在下面收听。
多模态生成内容在很短的时间内也变得明显更好。2022 年 9 月,我报道了 Meta 的第一个文本到视频模型 Make-A-Video。与今天的技术相比,那些视频看起来笨拙而愚蠢。Meta 刚刚宣布了其 OpenAI 的 Sora 的竞争对手,名为 Movie Gen。该工具允许用户使用文本提示创建自定义视频和声音、编辑现有视频以及将图像转换为视频。
我们与 AI 系统的交互方式也在发生变化,越来越少依赖文本。OpenAI 的新 Canvas 界面允许用户与 ChatGPT 协作完成项目。与传统的聊天窗口不同,传统的聊天窗口需要用户进行多轮提示和重新生成文本才能获得所需的结果,Canvas 允许用户选择文本或代码片段进行编辑。
甚至搜索也正在进行多模态升级。除了在 AI 概述中插入广告外,Google 还推出了一个新功能,允许用户上传视频并使用语音进行搜索。在 Google I/O 的演示中,该公司展示了如何打开 Google Lens 应用程序,拍摄水族馆中鱼类游泳的视频,并询问有关它们的问题。Google 的 Gemini 模型将搜索网络并以 Google 的 AI 摘要形式提供答案。
这些功能的共同点是更具交互性和可定制的界面,以及将 AI 工具应用于各种来源材料的能力。NotebookLM 是近一段时间以来第一个让我感到惊奇和喜悦的 AI 产品,部分原因是 AI 语音的差异、真实性和出乎意料。但 NotebookLM 的 Audio Overviews 尽管是隐藏在更大产品中的一个辅助功能,却大受欢迎,这仅仅说明了 AI 开发人员实际上并不了解他们在做什么。现在很难相信,ChatGPT 本身对 OpenAI 来说是一个意外的成功。
我们正处于价值数十亿美元的生成式 AI 热潮的第二年。对 AI 的巨额投资促使生成内容的质量迅速提高。但我们还没有看到杀手级应用,这些新的多模态应用是 AI 公司承受着巨大的盈利和交付压力的结果。科技公司正在向人们投掷不同的 AI 工具,看看哪些能流行起来。