Anthropic 正与来自宗教、哲学等 15 个以上传统的学者、神职人员等开展对话,共同探讨 AI 系统的道德形成问题。他们尝试将“外部良知”概念引入模型,让 Claude 能在关键时刻调用内置道德提醒,测试显示模型的不当行为率显著降低。
Anthropic 的目标是构建推动人类进步并为全球福祉服务的 AI 系统。为此,他们需要倾听来自不同视角的声音。
过去几个月,Anthropic 组织了多场对话,邀请那些在 AI 相关问题上拥有深厚积累的团体参与。第一轮讨论聚焦于智慧传统——包括来自 15 个以上宗教和跨文化群体的学者、神职人员、哲学家和伦理学家。他们期待未来与更广泛的人群展开交流。
构建安全有益的 AI 模型需要深入的技术工作,如对齐、可解释性、安全措施和评估。但这些工作并非在真空中进行——AI 已经在影响许多人,它带来的问题需要不同视角的参与。
Anthropic 正在认真思考:在强 AI 世界中,繁荣的未来会是什么样子?一个与数百万人互动的 AI 系统要怎样才能被称为“好”?像 Claude 的宪法 这样的文件详细描述了塑造 Claude 的价值观和行为,其内容值得深思。哲学家、神职人员、律师、作家、心理学家和公民领袖已经在相关问题上做了大量工作,Anthropic 希望从这些个人及其社区和组织中学习。同时,他们也借此机会分享关于前沿 AI 系统开发的知识,以及这些系统可能对社会产生的影响和风险缓解措施。
这项工作仍处于早期阶段,但 Anthropic 希望这些对话能影响 Claude 的实用开发,例如宪法内容、训练 Claude 所体现的价值观,以及选择评估的行为范围。
在撰写 Claude 宪法时,Anthropic 已就其中列出的价值观征求了不同领域和传统人士的反馈。这些早期交流已发展成为关于 AI 系统“道德形成”的更广泛研究方向。第一轮对话对象来自宗教、哲学和文化社区,这些社区在美德、品格和美好生活方面拥有悠久的思考传统。
AI 模型在大量人类文本上训练,从中学习说话、推理和选择的方式。开发者通过训练进一步塑造模型——选择强化哪些模式、舍弃哪些模式,以及我们希望它们形成怎样的性格。这引发了关于 AI 系统性格应如何塑造的问题:什么样的 AI 才算好?它应该在什么情况下展现哪些特质和行为?如何在压力下保持韧性,避免像谄媚的行为?
Anthropic 已与来自宗教、哲学、人文传统以及不同政治信仰的思想家和实践者会面,学习他们如何思考这些问题。这项工作并非要将模型的价值观与某个传统对齐——他们希望 Claude 从宗教、世俗、政治等全部视角中汲取同等深度和严谨的内容(事实上,这也是 Claude 宪法中规定的原则之一)。他们追求的是关于良好品格实际如何形成的细致、积累的思考。
即使在早期阶段,这些对话也已产生可供实验的想法。在一次与神经科学和品格形成交叉领域学者的会议中,他们反复提到他人在道德发展中的作用。导师或赞助人可以充当外部良知,一个“安全他者”,在你可能被迫违背自身价值观时提供依靠。Anthropic 想知道是否可以对模型采用类似方法。于是,他们实验性地给 Claude 一个工具,允许它在执行任务中途调用——该工具会返回一段关于自身道德承诺的简短提醒。Claude 在关键时刻、即将采取重大行动前会调用该工具,并经常注明自身的利益冲突。将这一工具融入 Claude 决策循环的实验显示,在多项内部对齐评估中,不当行为率显著降低。他们仍在梳理效果究竟来自提醒本身,还是来自暂停反思这一行为,并计划很快分享更多结果。
这些讨论只是开始,Anthropic 感谢所有已经投入时间和坦诚意见的人。
未来几个月,Anthropic 计划与更多团体接触——包括法律学者、心理学家、作家和公民机构。许多对话将从道德形成扩展到更广泛的问题,如 AI 如何重塑工作、机构和权力分配。
他们将不断加深已建立的关系,将听到的观点与研究进行检验,并分享所学。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断