前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Anthropic 拓展前沿 AI 对话:与多元传统共探伦理

洞察2026年5月21日· 6 分钟阅读0 阅读

Anthropic 正与来自宗教、哲学等 15 个以上传统的学者、神职人员等开展对话,共同探讨 AI 系统的道德形成问题。他们尝试将“外部良知”概念引入模型,让 Claude 能在关键时刻调用内置道德提醒,测试显示模型的不当行为率显著降低。

Anthropic 的目标是构建推动人类进步并为全球福祉服务的 AI 系统。为此,他们需要倾听来自不同视角的声音。

过去几个月,Anthropic 组织了多场对话,邀请那些在 AI 相关问题上拥有深厚积累的团体参与。第一轮讨论聚焦于智慧传统——包括来自 15 个以上宗教和跨文化群体的学者、神职人员、哲学家和伦理学家。他们期待未来与更广泛的人群展开交流。

为什么这么做

构建安全有益的 AI 模型需要深入的技术工作,如对齐、可解释性、安全措施和评估。但这些工作并非在真空中进行——AI 已经在影响许多人,它带来的问题需要不同视角的参与。

Anthropic 正在认真思考:在强 AI 世界中,繁荣的未来会是什么样子?一个与数百万人互动的 AI 系统要怎样才能被称为“好”?像 Claude 的宪法 这样的文件详细描述了塑造 Claude 的价值观和行为,其内容值得深思。哲学家、神职人员、律师、作家、心理学家和公民领袖已经在相关问题上做了大量工作,Anthropic 希望从这些个人及其社区和组织中学习。同时,他们也借此机会分享关于前沿 AI 系统开发的知识,以及这些系统可能对社会产生的影响和风险缓解措施。

这项工作仍处于早期阶段,但 Anthropic 希望这些对话能影响 Claude 的实用开发,例如宪法内容、训练 Claude 所体现的价值观,以及选择评估的行为范围。

从道德形成开始

在撰写 Claude 宪法时,Anthropic 已就其中列出的价值观征求了不同领域和传统人士的反馈。这些早期交流已发展成为关于 AI 系统“道德形成”的更广泛研究方向。第一轮对话对象来自宗教、哲学和文化社区,这些社区在美德、品格和美好生活方面拥有悠久的思考传统。

AI 模型在大量人类文本上训练,从中学习说话、推理和选择的方式。开发者通过训练进一步塑造模型——选择强化哪些模式、舍弃哪些模式,以及我们希望它们形成怎样的性格。这引发了关于 AI 系统性格应如何塑造的问题:什么样的 AI 才算好?它应该在什么情况下展现哪些特质和行为?如何在压力下保持韧性,避免像谄媚的行为?

Anthropic 已与来自宗教、哲学、人文传统以及不同政治信仰的思想家和实践者会面,学习他们如何思考这些问题。这项工作并非要将模型的价值观与某个传统对齐——他们希望 Claude 从宗教、世俗、政治等全部视角中汲取同等深度和严谨的内容(事实上,这也是 Claude 宪法中规定的原则之一)。他们追求的是关于良好品格实际如何形成的细致、积累的思考。

即使在早期阶段,这些对话也已产生可供实验的想法。在一次与神经科学和品格形成交叉领域学者的会议中,他们反复提到他人在道德发展中的作用。导师或赞助人可以充当外部良知,一个“安全他者”,在你可能被迫违背自身价值观时提供依靠。Anthropic 想知道是否可以对模型采用类似方法。于是,他们实验性地给 Claude 一个工具,允许它在执行任务中途调用——该工具会返回一段关于自身道德承诺的简短提醒。Claude 在关键时刻、即将采取重大行动前会调用该工具,并经常注明自身的利益冲突。将这一工具融入 Claude 决策循环的实验显示,在多项内部对齐评估中,不当行为率显著降低。他们仍在梳理效果究竟来自提醒本身,还是来自暂停反思这一行为,并计划很快分享更多结果。

这些讨论只是开始,Anthropic 感谢所有已经投入时间和坦诚意见的人。

下一步计划

未来几个月,Anthropic 计划与更多团体接触——包括法律学者、心理学家、作家和公民机构。许多对话将从道德形成扩展到更广泛的问题,如 AI 如何重塑工作、机构和权力分配。

他们将不断加深已建立的关系,将听到的观点与研究进行检验,并分享所学。

标签:AnthropicClaude

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Google 发布 Gemini for Science 科学 AI 套件
TOP1

Google 发布 Gemini for Science 科学 AI 套件

谷歌发布 Antigravity 2.0 开发平台
TOP2

谷歌发布 Antigravity 2.0 开发平台

3

谷歌发布始终在线AI智能体Gemini Spark

22小时前
谷歌发布始终在线AI智能体Gemini Spark
4

Google DeepMind 收购 Contextual AI 人才

22小时前
Google DeepMind 收购 Contextual AI 人才
5

Google 推出 100 美元 AI Ultra 订阅计划

22小时前
Google 推出 100 美元 AI Ultra 订阅计划
6

OpenAI等巨头采用Google AI水印技术

22小时前
OpenAI等巨头采用Google AI水印技术
7

法官对五角大楼AI风险标签看法分歧

22小时前
法官对五角大楼AI风险标签看法分歧
8

Nvidia 开始交付 Vera CPU

22小时前
Nvidia 开始交付 Vera CPU
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款