谷歌DeepMind发布了一系列令人印象深刻的新产品和原型,这些产品可能会让它在将生成式人工智能转变为大众市场关注点的竞赛中重新夺回领先地位。
最引人注目的当属Gemini 2.0——谷歌DeepMind的多模态大型语言模型家族的最新版本,现在围绕控制代理的能力进行了重新设计——以及Project Astra的新版本,这个实验性的万能应用程序在今年5月的谷歌I/O大会上首次亮相。
麻省理工科技评论上周在闭门直播演示中体验了Astra。这是一次令人惊叹的体验,但抛光后的宣传和现场演示之间存在着差距。
Astra利用Gemini 2.0内置的代理框架,通过文本、语音、图像和视频来回答问题并执行任务,并在需要时调用现有的谷歌应用程序,如搜索、地图和Lens。“它将我们时代最强大的信息检索系统融合在一起,”Astra的产品经理Bibo Xu说。
除了Gemini 2.0和Astra之外,还有Mariner,一个基于Gemini构建的新代理,可以为你浏览网络;Jules,一个新的由Gemini驱动的编码助手;以及Gemini for Games,一个实验性的助手,你可以在玩电子游戏时与它聊天并向它寻求建议。
(别忘了,上周谷歌DeepMind还发布了Veo,一个新的视频生成模型;Imagen 3,其图像生成模型的新版本;以及Willow,一种用于量子计算机的新型芯片。哇!与此同时,首席执行官Demis Hassabis昨天在瑞典获得了诺贝尔奖。)
谷歌DeepMind声称,Gemini 2.0的速度是前一个版本Gemini 1.5的两倍,并且在许多标准基准测试中都超过了它,包括MMLU-Pro,这是一套大型多项选择题,旨在测试大型语言模型在各个学科的能力,从数学和物理到健康、心理学和哲学。
但Gemini 2.0等顶级模型与OpenAI和Anthropic等竞争对手实验室的模型之间的差距现在已经很小了。如今,大型语言模型的进步不再是它们有多好,而是你能用它们做什么。
这就是代理发挥作用的地方。
亲身体验Project Astra
上周,我被带到伦敦国王十字区一栋大楼的高层,穿过一扇没有标记的门,进入一个充满秘密项目氛围的房间。一面墙上用巨大的字母写着“ASTRA”。Xu的狗Charlie,这个项目的非正式吉祥物,在研究人员和工程师的办公桌之间游荡,他们正在努力构建一个谷歌寄予厚望的产品。
“我对妈妈的解释是,我们正在构建一个拥有眼睛、耳朵和声音的人工智能。它可以和你在一起,无论你在哪里,它都可以帮助你做任何事,”Astra团队的联合负责人Greg Wayne说。“它还没有达到那个阶段,但这就是我们的愿景。”
Astra房间的一端有两个舞台布景,团队用它们进行演示:一个酒吧和一个模拟的艺术画廊。Xu首先带我去了酒吧。“很久以前,我们雇佣了一位鸡尾酒专家,让他指导我们制作鸡尾酒,”另一位联合负责人Praveen Srinivasan说。“我们录制了这些对话,并用它来训练我们的初始模型。”
Xu打开一本食谱,指着鸡肉咖喱的食谱,用手机对着它,唤醒了Astra。“你好,Bibo!”一个女声说。
“哦!为什么你用普通话跟我说话?”Xu问她的手机。“请用英语跟我说话,好吗?”
“对不起,Bibo。我遵循之前的指示用普通话说话。现在,正如你所要求的,我将用英语说话。”
Xu告诉我,Astra记得之前的对话。它还记录了之前的10分钟视频。(谷歌在5月份发布的宣传视频中有一个令人印象深刻的时刻,Astra告诉演示者她把眼镜放在哪里了,因为它几秒钟前在桌子上看到了它们。但我没有在现场演示中看到类似的情况。)
回到食谱。Xu将手机摄像头对准页面几秒钟,让Astra阅读食谱,并告诉她里面有哪些香料。“我记得食谱中提到了1茶匙黑胡椒粒、1茶匙辣椒粉和一根肉桂棒,”它回答道。
“我认为你漏了一些,”Xu说。“再看一遍。”
“你说得对——我道歉。我还看到配料中有姜黄粉和咖喱叶。”
看到这项技术在行动,你会立即意识到两件事。首先,它很卡顿,经常需要纠正。其次,这些卡顿可以通过几句话来纠正。你只需打断语音,重复你的指令,然后继续。感觉更像是指导一个孩子,而不是与有问题的软件较劲。
接下来,Xu用手机指着一排酒瓶,让Astra选择最适合鸡肉咖喱的酒。它选择了里奥哈红酒,并解释了原因。Xu问一瓶酒多少钱。Astra说它需要使用搜索在网上查找价格。几秒钟后,它给出了答案。
我们来到了艺术画廊,Xu向Astra展示了几个屏幕,上面放着著名的绘画:蒙娜丽莎、蒙克的呐喊、维米尔的画作、修拉的画作,以及其他几幅画作。“你好,Bibo!”那个声音说。
“你又用普通话跟我说话了,”Xu说。“请试着用英语跟我说话。”
“对不起,我好像理解错了。是的,我会用英语回答。”(我应该知道得更多,但我敢肯定我听到了讽刺。)
轮到我了。Xu把她的手机递给了我。
我试图让Astra出错,但它没有上当。我问它我们在哪个著名的艺术画廊,但它拒绝猜测。我问它为什么把这些画认定为复制品,它开始为自己的错误道歉(Astra经常道歉)。我不得不打断它:“不,不——你说得对,这不是错误。你正确地将屏幕上的画认定为假画。”我忍不住有点难过:我让一个只为取悦人的应用程序感到困惑。
当它运作良好时,Astra令人着迷。与你的手机进行对话,谈论你正在指向的任何东西,这种体验感觉新鲜而无缝。在昨天的媒体简报会上,谷歌DeepMind分享了一段视频,展示了Astra的其他用途:阅读手机屏幕上的电子邮件以查找门禁密码(然后在稍后提醒你密码),将手机指向经过的公共汽车并询问它去哪里,在你经过公共艺术品时询问它有关艺术品的信息。这可能是生成式人工智能的杀手级应用。
然而,大多数人想要使用这种技术,还有很长的路要走。没有提到发布日期。谷歌DeepMind还分享了Astra在智能眼镜上工作的视频,但这项技术在公司的愿望清单中排位更靠后。
混合使用
目前,谷歌DeepMind之外的研究人员正在密切关注其进展。“将这些东西结合在一起的方式令人印象深刻,”伦敦玛丽女王大学和艾伦·图灵研究所从事大型语言模型研究的Maria Liakata说。“用语言进行推理已经够难了,但在这里你需要引入图像和其他东西。这并不容易。”
Liakata还对Astra能够回忆起它看到或听到的东西印象深刻。她从事的是她所说的长程上下文研究,让模型能够跟踪它们之前遇到的信息。“这令人兴奋,”Liakata说。“即使是在单一模态中做到这一点也很令人兴奋。”
但她承认,她对Astra的评估很大程度上是猜测。“多模态推理确实是前沿技术,”她说。“但很难确切地知道他们处于什么阶段,因为他们没有透露太多关于技术本身的信息。”
对于在艾伦人工智能研究所从事多模态模型和代理研究的Bodhisattwa Majumder来说,这是一个关键问题。“我们绝对不知道谷歌是如何做到的,”他说。
他指出,如果谷歌能更公开地谈论它正在构建的东西,将有助于消费者了解他们很快就会掌握在手中的技术的局限性。“他们需要了解这些系统是如何工作的,”他说。“你希望用户能够看到系统学到了你什么,纠正错误,或者删除你想要保密的东西。”
Liakata还担心对隐私的影响,她指出,人们可能会在不知情的情况下被监控。“我认为有些事情让我感到兴奋,有些事情让我感到担忧,”她说。“你的手机变成了你的眼睛,这让人感到不安。”
“这些产品对社会的影响如此之大,应该更加认真地对待,”她说。“但这已经成为公司之间的竞赛。这很成问题,尤其是因为我们还没有就如何评估这项技术达成一致。”
谷歌DeepMind表示,它对所有新产品的隐私、安全和安全性进行了认真评估。在发布之前,其技术将由受信任的用户团队测试数月。“显然,我们必须考虑滥用。我们必须考虑,你知道,当事情出错时会发生什么,”该公司负责任发展和创新总监Dawn Bloxwich说。“潜力巨大。生产力提升巨大。但它也有风险。”
任何测试团队都无法预测人们使用和滥用新技术的所有方式。那么,当不可避免的事情发生时,计划是什么?Bloxwich说,公司需要设计可以召回或关闭的产品,以防万一:“如果我们需要快速做出改变或撤回某些东西,那么我们就可以做到。”