想象一下,你与一个 AI 模型进行长达两小时的语音访谈。一个友好的声音引导你,从童年、重要记忆、职业生涯,到对移民政策的看法,展开一场深入的对话。不久之后,一个你的虚拟复制体便能以惊人的准确度,展现你的价值观和偏好。
根据斯坦福大学和谷歌 DeepMind 等机构研究人员发表在 arXiv 上的一篇新论文,这已经成为现实。该论文尚未经过同行评审。
由斯坦福大学计算机科学博士生朴俊成领导的研究团队,招募了 1000 名参与者,涵盖了不同年龄、性别、种族、地区、教育程度和政治意识形态。他们为参与者支付了最高 100 美元的报酬。通过对他们的访谈,研究团队创建了这些个体的代理复制体。为了测试这些代理体模仿其人类对应者的程度,参与者分别在两周内进行了两次人格测试、社会调查和逻辑游戏;然后,代理体也完成了相同的练习。结果显示,相似度高达 85%。
“如果你能拥有许多‘小你’在周围活动,并做出你本会做出的决定——我认为,这才是最终的未来,”朴俊成说。
在论文中,这些复制体被称为模拟代理,创建它们的目的是让社会科学和其他领域的研究人员更容易进行研究,而这些研究如果用真实的人类受试者进行,则会非常昂贵、不切实际或不道德。如果能够创建出行为像真实人类的 AI 模型,那么就可以用它们来测试各种事物,从社交媒体干预措施如何对抗虚假信息,到哪些行为会导致交通堵塞。
这种模拟代理与当今领先的 AI 公司主导的代理略有不同。这些被称为工具型代理的模型,是为帮你做事而构建的,而不是与你对话。例如,它们可以输入数据、检索你存储在某个地方的信息,或者——将来——为你预订旅行和安排约会。Salesforce 在 9 月份宣布了他们自己的工具型代理,Anthropic 在 10 月份也紧随其后,据彭博社报道,OpenAI 计划在 1 月份发布一些代理。
这两种类型的代理虽然不同,但也有共同点。麻省理工学院斯隆管理学院信息技术副教授约翰·霍顿表示,模拟代理的研究,例如这篇论文中的研究,可能会导致更强大的 AI 代理。霍顿创办了一家公司,使用 AI 模拟参与者进行研究。
“这篇论文展示了如何进行一种混合方式:使用真实人类生成角色,然后可以在程序化/模拟环境中使用这些角色,而这些是真实人类无法做到的,”他在给《麻省理工科技评论》的一封电子邮件中写道。
这项研究也存在一些警告,其中最重要的是它所指出的危险。正如图像生成技术使人们能够轻松地未经他人同意就创建有害的深度伪造图像一样,任何代理生成技术都会引发人们对人们可以轻松地构建工具来在线模拟他人、说出或授权他们从未打算说的话的担忧。
研究团队用来测试 AI 代理复制其对应人类程度的评估方法也相当基础。这些方法包括通用社会调查——收集有关个人人口统计、幸福感、行为等信息——以及对五大性格特质的评估:开放性、尽责性、外向性、宜人性、神经质。这些测试在社会科学研究中很常见,但并不假装能捕捉到使我们成为我们自己的所有独特细节。在“独裁者博弈”等行为测试中,AI 代理在复制人类方面也表现较差,这种测试旨在阐明参与者如何考虑公平等价值观。
为了构建一个能够很好地复制人类的 AI 代理,研究人员需要找到方法将我们的独特性提炼成语言 AI 模型能够理解的形式。朴俊成说,他们选择了定性访谈来做到这一点。他说,在他于 2023 年发表的一篇关于生成式代理的论文引发了该领域极大兴趣之后,他出现在了无数播客节目中,这让他确信访谈是了解某人的最有效方式。“我可能会参加一个两小时的播客访谈,访谈结束后,我感觉,哇,人们现在对我了解很多,”他说。“两个小时可以非常强大。”
这些访谈还可以揭示不太可能出现在调查中的特质。“想象一下,有人刚刚患了癌症,但去年终于治好了。这关于你的非常独特的信息,说明了你可能会如何行为和思考,”他说。很难设计出能引出这类记忆和反应的调查问题。
不过,访谈并非唯一选择。像 Tavus 这样的公司提供为用户创建“数字孪生”服务,他们的 AI 模型可以摄取客户电子邮件或其他数据。Tavus 首席执行官哈桑·拉扎告诉我,通常需要相当大的数据集才能以这种方式复制某人的性格,但这篇新论文表明了一种更有效的方法。
“真正酷的是,他们表明你可能不需要那么多信息,”拉扎说,并补充说他的公司将尝试这种方法。“你今天和 AI 面试官聊 30 分钟,明天再聊 30 分钟怎么样?然后我们用这些信息来构建你的数字孪生。”