在民主社会中,达成共识并非易事,因为人们在意识形态、政治和社会观点上存在着巨大的分歧。
或许人工智能工具可以提供帮助。来自 Google DeepMind 的研究人员训练了一套大型语言模型 (LLM) 系统,使其充当“议会调解员”,生成总结,概述群体在复杂但重要的社会或政治问题上的共识领域。
研究人员表示,这种名为“哈贝马斯机器”(HM) 的工具(以德国哲学家尤尔根·哈贝马斯命名)突出了人工智能在帮助人们在讨论此类主题时找到共同点方面的潜力。“大型语言模型经过训练,可以识别和呈现群体成员之间观点的重叠领域,”Google DeepMind 的研究科学家迈克尔·亨利·特斯勒说。“它没有经过训练来具有说服力,而是充当调解员。”这项研究今天发表在《科学》杂志上。
Google DeepMind 招募了 5,734 名参与者,其中一些来自众包研究平台,另一些来自抽签基金会,这是一个组织公民大会的非营利组织。抽签小组形成了英国人口的具有代表性的样本。
HM 由两个针对此任务微调的不同 LLM 组成。第一个是生成模型,它提出反映群体不同观点的陈述。第二个是个性化奖励模型,它根据每个参与者认为他们会同意这些陈述的程度对提出的陈述进行评分。
研究人员将参与者分成小组,并分两步测试了 HM:首先是看它是否能准确地总结集体意见,然后是看它是否也能在不同群体之间进行调解,帮助他们找到共同点。
首先,他们提出了诸如“我们是否应该将投票年龄降低到 16 岁?”或“是否应该将国民保健制度私有化?”等问题。参与者在小组讨论他们的观点之前,向 HM 提交了回复,每个小组大约有五个人。
HM 总结了小组的意见;然后将这些总结发送给个人进行批评。最后,HM 生成了一组最终的陈述,参与者对它们进行了排名。
然后,研究人员着手测试 HM 是否可以充当有用的 AI 调解工具。
参与者被分成六人小组,每组中的一名参与者被随机分配代表小组撰写陈述。这个人被指定为“调解员”。在每一轮讨论中,参与者都会看到来自人类调解员的一份陈述和来自 HM 的一份 AI 生成的陈述,并被要求选择他们更喜欢的陈述。
超过一半(56%)的时间,参与者选择了 AI 陈述。他们发现这些陈述比人类调解员产生的陈述质量更高,并且倾向于更强烈地支持它们。在 AI 调解员的帮助下进行讨论后,参与者的小组在他们对这些问题的立场上的分歧减少了。
虽然研究表明 AI 系统擅长生成反映群体意见的总结,但重要的是要注意,它们的效用是有限的,阿尔托大学研究生成式 AI 的研究员 Joongi Shin 说。
“除非情况或背景非常明确,以便他们可以看到输入到系统中的信息,而不仅仅是它生成的总结,我认为这些系统可能会造成伦理问题,”他说。
Google DeepMind 没有明确告诉人类调解员实验中的参与者,AI 系统将生成群体意见陈述,尽管它在同意书中表明算法将参与其中。
“同样重要的是要承认,该模型在当前形式下,在处理现实世界讨论的某些方面的能力有限,”特斯勒说。“例如,它不具备事实核查、保持主题或调节讨论的与调解相关的能力。”
弄清楚这种技术在未来可以在哪里以及如何使用,需要进一步研究以确保负责任和安全的部署。该公司表示,目前没有计划公开发布该模型。