苹果公司进军人工智能领域的最新举措再次让科技界为之沸腾。继 3 月份推出 MM1 多模态大型语言模型 (LLM) 之后,这家科技巨头现在揭开了其最新 AI 模型创新的面纱:ReALM(参考分辨率作为语言模型)。
尽管 GPT-4 长期以来一直以其在文本和视觉理解方面的卓越能力而占据主导地位,但 Apple 的 ReALM 正在开拓自己的市场。与前辈不同,ReALM 的专长在于它能够熟练地理解对话和屏幕上的引用。
据苹果研究团队称,ReALM 拥有独特的能力,不仅可以理解屏幕上的任务和对话背景,还可以在基准测试中超越 GPT-4 的表现。这一说法得到了早期研究结果的支持,预示着 ReALM 可能会改变游戏规则,尤其是对于苹果的虚拟助手 Siri 而言。
苹果研究人员在 Arxiv 网站上发表的研究论文中表示:“我们在不同类型的参考文献中展示了与现有具有类似功能的系统相比的巨大改进,我们最小的模型在屏幕参考文献中获得了超过 5% 的绝对增益。我们还以 GPT-3.5 和 GPT-4 为基准,我们最小的模型实现了与 GPT-4 相当的性能,而我们较大的模型则大大优于它。”
ReALM 的与众不同之处在于其处理视觉信息的创新方法。ReALM 不会直接处理复杂的视觉效果,而是将所有上下文数据(包括屏幕上的内容)转换为文本。这种战略策略不仅发挥了 ReALM 基于文本的优势,还减轻了参数负担,使其成为一个灵活的竞争者,尤其是对于处理能力有限的设备而言。
初步评估表明,在涉及屏幕参考和特定用户查询的任务中,ReALM 可以与 GPT-4 相媲美,甚至超越它。这一突破可能开启情境感知语音助手的新时代,Siri 有望提供更直观、更免提的用户体验。
想象一下,在浏览网站时,您毫不费力地指示 Siri 拨打电话,然后看着它无缝识别并拨打屏幕上显示的业务号码。这个例子凸显了 ReALM 在增强语音助手的情境感知方面的变革潜力,为更加身临其境和顺畅的用户交互铺平了道路。
ReALM 的首次亮相标志着正在进行的 AI 竞赛中的一个重要里程碑。Apple 对效率和目标优势的战略关注推动 ReALM 成为卫冕冠军 GPT-4 的强大挑战者。有关 ReALM 功能和应用程序的详细信息预计将在 Apple 即将于 2024 年 6 月举行的全球开发者大会上公布,为 AI 技术可能改变游戏规则的进步奠定基础。
从本质上讲,ReALM 代表了语音助手发展过程中的重大进步。通过熟练地导航屏幕上的信息和上下文提示,Siri 的下一代产品可以无缝融入用户的生活,开启人工智能带来的便利和连接的新时代。