微软突破性AI模型Muse:赋予机器理解三维空间的能力
微软研究人员取得了人工智能领域一项重大突破,他们成功地教会了AI像人类一样理解和交互三维空间。这一突破体现在名为Muse的AI模型上,该模型能够理解和生成复杂的玩法序列,同时保持物理一致性和角色行为的一致性。
Muse模型的训练数据来自Xbox游戏《Bleeding Edge》长达七年的玩家游戏数据。与传统的基于文本或静态图像的AI模型不同,Muse模型发展出了研究人员称之为“实践理解”的能力,它能够理解物体、角色和环境在三维空间中随时间推移的交互方式。
微软研究员Katja Hofmann在接受VentureBeat独家采访时表示:“模型架构与游戏无关,唯一的要求是访问适当的数据集。我们设计了模型以使用最通用的数据格式,我们称之为视觉和控制器动作的‘人机界面’。”
这种方法使Muse能够生成长达两分钟的连贯游戏序列,这在保持长时间内三维世界交互的一致性方面是一项重大的技术成就。该系统只需一秒钟的游戏画面作为输入,就能生成符合游戏物理和角色行为的复杂场景。
然而,Muse也存在一些局限性。Hofmann告诉VentureBeat:“图像分辨率固定为300×180像素。模型大小和速度之间存在权衡,这意味着我们最大、最一致的模型在推理时也是最慢的。”
Muse的开发得到了游戏开发者的大力支持。微软研究人员采访了全球27位游戏开发者,包括来自发达国家和发展中国家的工作室,以确保这项技术能够满足真正的创意需求。
除了游戏领域,微软还看到了这项技术的更广泛应用。微软研究院院长Peter Lee在一篇博客文章中强调了这项技术在建筑、零售和制造业的潜在应用:“从重新配置你家里的厨房,到重新设计零售空间,再到构建工厂车间的数字孪生体以测试和探索不同的场景。所有这些现在都通过AI成为可能。”
Hofmann告诉VentureBeat:“除了游戏之外,应用的主要限制是获取高质量数据。游戏是一个推动进步的绝佳应用领域,因为与其他三维环境相比,通常可以更容易地收集大量高质量数据。”
保护游戏历史,赋能未来创作者
对于游戏行业来说,Xbox正在探索这项技术如何帮助保存经典游戏。微软游戏AI部门副总裁Fatima Kardar在一篇博客文章中表示:“得益于这一突破,我们正在探索Muse将我们工作室的旧游戏目录优化到任何设备上的潜力。”
Muse模型实现了三大关键技术创新:在扩展序列中保持连贯的物理和游戏机制;从同一个起点生成多个多样化但合理的延续;以及允许用户修改生成的内容,同时保持这些修改的一致性。
Hofmann说:“我个人对Muse能够纯粹通过观察人类游戏数据来学习对复杂三维环境的详细理解感到着迷。我们的研究展示了朝着由创意人员打造的新型交互式体验迈出的激动人心的步伐,这些体验是高度个性化的,并且由玩家自己创造。”
微软正在根据微软研究许可证向研究人员和创意人员发布模型权重和演示工具,但这还不是企业客户产品。此次发布旨在鼓励进一步研究和探索这项技术的潜力。
这项开发标志着AI能力的更广泛转变:从理解文本和图像等静态内容,到理解动态三维环境和人类交互。这将对我们如何设计和交互虚拟空间产生深远的影响,并波及各个行业。
随着微软将这项研究推向产品化,它强调了人类创造力的核心地位。这项技术被定位为辅助工具,而不是人类游戏设计师的替代品,旨在增强而不是自动化创意过程。