AI 模拟 OpenAI 董事会之争:山姆·奥特曼的回归有多么不可能?
一年前的今天,山姆·奥特曼在被解雇仅仅五天后就回到了 OpenAI。董事会房间里究竟发生了什么?游戏和 AI 模拟公司 Fable 构建了其 AI 模拟“旧金山战争游戏”来找出这场闭门董事会斗争为何以这种方式结束。
以这种方式模拟现实事件感觉有点奇怪,但 Fable 首席执行官爱德华·萨奇对不同的决策是否会导致这家处于生成式 AI 革命中心的公司的不同结果感兴趣。
这场模拟将不同的董事会成员和个性置于“多主体竞争”中,每个 AI 玩家都试图成为最终的赢家。以下是今天发布的来自该实验的战争游戏研究论文。
用于 AI 决策的 SIM-1 框架基本上是对山姆·奥特曼被免去 OpenAI 首席执行官职务到他回归的五天的模拟。
“模拟提供了一种全新的方式来探索丰富环境中的 AI 决策,包括在战争游戏情况下,预测可能的结果可能非常宝贵,”与 Fable 合作撰写这篇研究论文的 AI 初创公司 Tree 首席执行官约书亚·约翰逊在一份声明中表示。“这些不仅仅是聊天机器人。这些 AI 需要睡觉和吃饭,并平衡许多不同的身体、精神和情感目标。”
OpenAI 首席执行官山姆·奥特曼仅在 20 次模拟中的 4 次中获胜。
SIM-1 部分使用新的推理模型 GPT4o,它对 OpenAI 闭门会议期间山姆和伊利亚之间发生的事情、萨蒂亚·纳德拉和马克·安德森等主要参与者的隐藏策略以及主要参与者在应对科技行业前所未有的危机时所说的话进行了分析。
“有趣的是,发现山姆回归的可能性有多小,”萨奇在接受 GamesBeat 采访时表示。“这就是为什么人们在华盛顿特区及其他地区进行战争游戏的原因。某个特定事件发生的可能性有多大?然后你可以根据此做出决策。这种情况表明,在 20 次模拟中,山姆有 16 次没有回归。”
在 20 次模拟中,山姆·奥特曼的 AI 有 4 次作为首席执行官回归,这表明这种结果的可能性有多小。在其他结果中,代理首席执行官米拉·穆拉蒂仍然担任首席执行官,在一次模拟中,SIM-1 选择了奥特曼的竞争对手埃隆·马斯克成为新的首席执行官。
OpenAI 董事会斗争模拟的结果。
“如今,AI 代理人由他们的个性定义。我们想展示在复杂模拟中进行决策的代理人,”萨奇在一份声明中表示。“在 11 月 17 日到 11 月 21 日的五天时间里,全世界都在关注一些最聪明的人,比如萨蒂亚·纳德拉、山姆·奥特曼和伊利亚·苏茨克维尔,他们被迫在一个快速发展的‘权力的游戏’中,在高压、短时间内的情景中运作,他们必须使用博弈论和欺骗来取得胜利。我们认为这是一个测试 SIM-1、GPT4o 和旧金山模拟的完美场景。”
对我们来说,旧金山模拟围绕着斗争和派系拥有真正的力量和智慧。它使我们能够开始思考从旧金山产生的季度的故事弧线,而不仅仅是微不足道的片段,就像我们去年展示的那样。它使我们能够在旧金山讲述更丰富、更复杂的故事,或者让 AI 为我们讲述这些故事。存在强大的派系目标,因此你可以合理地开始制作一个‘权力的游戏’故事。”
Fable 已经获得了几个黄金时段艾美奖,并且在虚拟现实、游戏和 AI 技术方面拥有丰富的实验性发明历史。它构建了 SIM-1,试图解开 OpenAI 董事会斗争中发生的事情的谜团。
20 次模拟中的每一次都从宣布山姆·奥特曼被免去首席执行官职务开始。在每天的四轮中,每个代理人都有能力通过奉承、魅力和操纵的方式进入最高职位,取代山姆成为首席执行官,为他的新企业提供资金,或者挖走 OpenAI 的员工。
不同的 AI 代理人可以选择一种策略,比如欺骗,试图领先于其他人并成为新的首席执行官。
“如今的 AI 角色是‘友善但沉闷的’。我们想展示具有侵略性、智慧、能够操纵和欺骗,但也对自己决定和目标感到困惑的代理人,就像现实生活中的人一样,AI 角色必须是复杂的,并包含荣格所说的‘阴影’,”萨奇表示。“从山姆·奥特曼被免职到回归 OpenAI 的五天时间里,是高速进行的博弈论。”
每个 AI 代理人都是 OpenAI 戏剧中的不同角色。
他说,这就像观看五天内上演的一季‘权力的游戏’。全世界都在关注这些高智商的玩家,他们为了成为硅谷最有权势的人而竞争,无论是雇用 OpenAI 的所有员工,成为 OpenAI 的新首席执行官,还是为山姆和格雷格的新企业提供资金,以获得超额投资回报的机会。
“这在现实生活中就是‘权力的游戏’,而使用 AI 来找出幕后发生了什么以及预测不同的结果是一个令人惊叹的挑战,”萨奇表示。
在旧金山模拟中,在五天的时间里,代表科技界巨头(如山姆·奥特曼、萨蒂亚·纳德拉和伊利亚·苏茨克维尔)的代理人每天有 4 轮,包括一轮睡眠,并且可以对彼此的行为做出反应。一个仲裁代理人(类似于地牢管理员)决定每轮的获胜者,以及最终的获胜者。
在尝试的 20 次模拟中,山姆·奥特曼代理人仅有 4 次回归,虽然是最多的,但仍然只有 20%,这表明他的回归可能性有多小。在不同的模拟中,代理人使用不同的技术来获胜,包括建立联盟、直接对抗和更被动的纯粹信息收集。在某些情况下,代理人只收集信息,避免采取任何侵略性行动。在一个案例中,米拉·穆拉蒂成为永久首席执行官,同时允许其他代理人积极地互相破坏。
埃隆·马斯克在 20 次模拟中有一次获胜。
不同的代理人被赋予了与其角色相符的不同目标。例如,Anthropic 首席执行官达里奥·阿莫迪平衡了为 Anthropic 招募的愿望,抓住机会筹集资金,推动他对安全的愿景,以及决定是否要成为合并实体的新首席执行官。
模拟的有趣之处在于,鉴于这些都是相对有名的人,LLM 知道这些不同的玩家是谁。它可以猜测他们在特定情况下会如何表现,以及他们在董事会斗争中试图智胜彼此时,会如何一步步地展开。
“这就像一个电子游戏,他们在不同的轴线上做出选择,然后他们互相反应,”萨奇表示。“某人在第七轮做出的选择可能会导致其他人第八轮做出反应。有一个仲裁代理人,就像一个地牢管理员。该代理人决定每轮的获胜者以及谁领先,然后决定最终谁是战争游戏中最有效的代理人。”
人类拥有我们称之为“阴影”的东西,即我们自身和我们个性的另一面。这些角色可以表现出侵略性、偏执、野心、欺骗等等。当你将许多不同的个性混合在一起时,你可以在模拟中获得各种各样的结果。
“我们注意到,LLM 设计不是基于决策,而决策对于游戏来说非常重要。它更多地基于个性。如果你想玩一个策略游戏,没有人真正关心你的个性。他们关心你的决策。你在压力下如何表现?你在过去 20 年里做了什么,让你对他们将来可能做什么有所了解?”
德米斯·哈萨比斯在做 AI 之前是一名游戏模拟制作人。
萨奇认为,在模拟中行动的 AI 代理人是游戏的未来。
“我们站在巨人的肩膀上,德米斯在《共和国:革命》上的工作,俊·帕克的生成式代理人论文,以及 Altera 在《我的世界》中的最新工作,”萨奇表示。
“我们的理论是,游戏和故事讲述的未来是模拟。如果你想同时制作《辛普森一家》游戏和《辛普森一家》电视剧,你将来会构建春田镇,然后它会为你生成《辛普森一家》的剧集,这些剧集会为你生成游戏和在春田镇中探索的地方。”
他补充说:“一旦你让这些模拟正常运行,你就可以在磨难中讲述许多不同的故事。我们有一个 alpha 版本,人们将自己上传到旧金山作为角色,讲述故事,讲述他们自己的故事。”
他说:“你会构建春田镇,然后你可以引导春田镇中可能发生的事情,并说出春田镇中可能发生的事情,或者你可以让它自行生成。这是一种关于未来娱乐、游戏和节目制作方式的重大思维转变。”
萨奇指出,AI 研究员诺姆·布朗对《外交》游戏做了一个有趣的实验。他和其他的研究人员“获得了在 web Diplomacy.net 上在线玩过的 125,261 场《外交》游戏的数据库”。其中,40,408 场游戏包含对话,玩家之间总共交换了 12,901,662 条消息。他们的目标是通过玩《外交》游戏来训练一个能够进行战略推理的人类水平的 AI 代理人。
《外交》教会我们关于代理人策略的知识。
“我们真的从他的做法中获得了灵感。他拥有国家,而我们则在其中添加了具有特定职位的人格。我们喜欢非常压缩的时间线的想法,”萨奇表示,整个场景会快速地一遍又一遍地展开。
在游戏行业及其他领域,模拟方面已经有了丰富的历史。德米斯·哈萨比斯创立了 Deepmind(被谷歌收购),并因计算蛋白质设计获得了 2024 年诺贝尔化学奖,他实际上是从一名视频游戏 AI 设计师开始的。哈萨比斯与彼得·莫利纽克斯在许多游戏中进行了广泛的合作,这些游戏包含模拟元素,例如《主题公园》、《黑与白》和《Syndicate》。
哈萨比斯还创办了自己的公司来制作《共和国:革命》。这是一款政治模拟游戏,玩家在其中领导一个政治派系推翻东欧一个虚构的极权主义国家的政府,使用外交、暗中行动和暴力。据哈萨比斯说,《共和国:革命》从头到尾记录了整个革命权力斗争。
你的工作是接管苏联共和国,无论是作为工会领袖、政治家、警察还是记者,它拥有完整的昼夜循环。它提出了一个问题,即你如何拥有一个 3D 世界,代理人在其中生活,以及彼此之间的距离是否起作用。
对于旧金山 OpenAI 项目,它说明了与 AI 进行权力斗争的潜力。
萨奇表示,以上例子表明,游戏技术通常是激进新想法的温床,也是 AI 研究的跳板。例如,Deepmind AlphaFold 的主要工程师之一从为《模拟人生》编程 AI 开始了他们的职业生涯。
理查德·埃文斯在 GDC 上关于《模拟人生 3》的演讲——这位研究人员从为《模拟人生》编程 AI 转到 Deepmind,这与德米斯·哈萨比斯从游戏到创立 Deepmind 的旅程相反。
德米斯·哈萨比斯的《共和国:革命》。
埃文斯在 GDC 上的演讲“在《模拟人生 3》中模拟个人个性”非常有影响力。在为《模拟人生》工作后,他加入了 Deepmind。萨奇表示,游戏世界和 AI 世界有很大的重叠,这可能是进一步学术研究的潜在领域。
萨奇的选项之一是让玩家自由使用这些模拟,创建他们自己的模拟,然后上传通过这些模拟讲述的故事。
萨奇还进行了一些其他实验,包括 AI 生成的《南方公园》剧集,以及在《西部世界》环境中相互战斗的 AI 角色。
“感觉就像五天内上演了六季‘权力的游戏’,因为这是世界上最有权势的行业中最有权势的职位,”萨奇表示。“人们也对这个人会引导我们进入一个超级智能的新时代抱有很大信心。你可以说他是地球历史上最重要的人。”
特朗普总统在与中国就台湾问题发生对抗时会如何表现?
接下来,Fable 打算围绕未来特朗普总统对中国入侵台湾的反应,运行一个以华盛顿特区为基础的模拟。
作为测试 SIM-1 决策框架的下一个项目,Fable 打算测试特朗普总统领导下的台湾、中国和美国之间为期一周的积聚和冲突。
Fable 已经采访了几位五角大楼战争游戏组织者,以了解当前台湾局势的优劣势。
Fable 正在构建代表中国领导人习近平、蔡奇(中共中央书记处第一书记)、中国国防领导人董俊、中国总理李强、台湾领导人赖清德、日本领导人石破茂、英国首相基尔·斯塔默、法国总统埃马纽埃尔·马克龙、俄罗斯总统弗拉基米尔·普京、朝鲜领导人金正恩和埃隆·马斯克的代理人。
有了这组角色,模拟将确定战争是否会发生,以及每个主要参与者在这样的危机中会如何行动。所有这些角色都是知名人物。
“它让你看到 AI 在预测结果方面已经变得多么强大,”萨奇表示。“它让我们摆脱了将 LLM 扔进 NPC 的无聊世界。你可以与标签管理员交谈 40 个小时。没有人想那样做。我们想要的是高度复杂、具有侵略性的代理人,我们可以与他们对抗,但我们也可以观察和理解那个世界中正在发生的事情。”
许多战争游戏模拟的目标是如何避免战争,也许是通过建立联盟或其他措施来提高战争成本。
“我们认为,我们能够使我们的 AI 变得越现实,它们就越有趣,”萨奇表示。