微软Muse:AI游戏引擎的未来?
人工智能正在悄然改变游戏行业,从艺术、音乐、写作到代码,AI工具正渗透到游戏开发的各个环节。但如果AI模型能够从一张截图中生成游戏玩法呢?
微软的Muse正是基于这一理念诞生的。这个拥有16亿参数的Transformer模型,经过50万小时玩家数据的训练,能够根据游戏截图生成多段游戏玩法,时长可达数分钟。
“他们训练了一个本质上是神经游戏引擎的模型,它拥有前所未有的时间连贯性和保真度,”纽约大学计算机科学副教授、AI游戏测试公司Modl.ai联合创始人朱利安·托格利乌斯表示,“这具有广泛的意义,我预计它将在未来被更广泛地应用于游戏开发。”
Muse的运作原理
Muse(也称为世界和人类行为模型,或WHAM)是在多人动作游戏《Bleeding Edge》的人类游戏数据上训练的。研究人员在这些数据上训练了一系列模型,参数数量从1500万到16亿不等;其中性能最佳的模型拥有16亿参数,并在今年2月发表在《自然》杂志上。
尽管Muse具有创新性,但它并非第一个能够生成游戏玩法的AI模型。值得注意的前辈包括谷歌DeepMind的Genie、腾讯的GameGen-X和GameNGen。这些早期模型能够生成视觉上吸引人的游戏玩法,并且在许多情况下,它们的帧率和分辨率都高于Muse。
然而,微软开发Muse的方法具有几个独特的优势。
与之前的模型不同,Muse是在包含游戏画面和对应控制器输入的真实世界人类游戏数据上训练的。微软能够通过其Xbox游戏工作室旗下的游戏开发商Ninja Theory获得这些数据。相比之下,Genie和GameGen-X无法访问控制器输入,而是利用来自各种游戏的公开图像数据进行训练。
Muse还采用了自回归Transformer架构,这在生成图像的模型中并不常见(游戏玩法,就像视频一样,是一系列连续的图像)。Muse将游戏玩法生成为离散标记的序列,这些标记将图像和控制器动作编织在一起。虽然Genie也使用了Transformer架构,但它没有对控制器输入进行建模。GameNGen和GameGen-X则使用专门的扩散模型来生成游戏玩法,同样没有对控制器输入进行建模。
“到目前为止,我们还没有在扩散模型中获得与自回归模型相同的连贯性,”微软研究院高级首席研究经理卡佳·霍夫曼表示。
研究人员构建了一个名为WHAM演示器的前端,以展示该模型的连贯性。它可以用来用截图提示Muse,然后Muse会生成多个游戏玩法的“延续”,每个延续都提供了对可能发生情况的不同预测。Muse和WHAM演示器可从HuggingFace下载。
生成后,用户可以使用游戏控制器探索这些延续。甚至可以将模型熟悉的物体直接拖放到游戏玩法中。游戏玩法会更新以包含该物体,该物体将成为游戏世界的一部分。这些物体的持久性成功率为85%到98%,具体取决于插入的物体。
Muse用户可以通过直接在画面上绘制来直观地调整非玩家角色(NPC)的行为和环境。图像或视频参考也可以用来影响场景生成,并随后从中选择。
Anssi Kanervisto, Dave Bignell et al.
构建世界模型
微软在发布公告时谨慎地避免将Muse称为完整的AI游戏生成器,这是有充分理由的。虽然它生成的游戏玩法片段即使在数分钟的游戏时间内也保持着惊人的一致性,但这些片段的生成分辨率仅为380×180像素,帧率为每秒10帧,这对于愉快的游戏体验来说太低了。Muse还局限于生成类似于《Bleeding Edge》的游戏玩法。
这些选择是为了让Muse保持可控;霍夫曼表示,Muse的训练目标是“我们能够实现的最小模型,以展示其可能性”。正因为如此,她认为该模型的质量还有提升空间。
Muse并非旨在取代游戏,而是作为开发人员迭代游戏玩法创意的工具。“你可以创建一个迭代循环。你可以创建多个预测分支。你可以返回,你可以实时进行修改,”霍夫曼说。
Muse也代表着朝着创建能够捕捉真实或模拟环境动态的高级“世界模型”迈进了一步。
像Muse和Genie这样的生成游戏玩法的模型,学习预测跨越3D图形、2D图形、物理和音频等多种模态的游戏玩法。这意味着AI模型可以被训练成对复杂环境形成更一般的理解,形成更完整的“世界模型”,而不是由不同部分组成的集合。
“过去,为了训练一个模型来处理特定事物,比如爵士乐,你需要训练它来理解音乐理论,掌握许多规则和见解,”霍夫曼说。“现在,我们有了在这些非常复杂的有结构数据上训练生成式AI模型的方案,而无需对这些系统背后的规则进行大量手工制作。”
托格利乌斯看到了类似的可能性。他说,像Muse这样的模型不仅可以通过生成游戏玩法来迭代游戏玩法,还可以创建模拟环境的世界模型。这反过来又会为探测和测试该环境打开新的可能性,比如让AI代理在世界模型中自由互动和学习。
“这对游戏和游戏之外的事物都有很大的影响,”他说。