前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI 前沿技术

Anthropic最新研究:LLM展现初步自省能力,概念注入实验揭示AI内省迹象

NEXTECH
Last updated: 2025年10月31日 上午7:04
By NEXTECH
Share
12 Min Read
SHARE

语言模型能否「看见」自己的思考?Anthropic 的最新研究表明,其 Claude 模型展现出了真实但有限的内省能力,即它能在某种程度上识别自己的内部状态。

Contents
概念注入实验意图与执行的一致性检查认知控制的证据不同模型的表现差异研究的意义与局限社区反响

Anthropic研究团队解释LLM概念注入实验方法

这听起来像科幻小说,但研究团队开发了一套巧妙的验证方法:

向模型的「大脑」注入已知概念,然后观察这些注入如何影响模型对自身内部状态的报告。

概念注入实验

研究人员请模型检测是否有概念被注入到它的「思维」中。

当他们向神经网络注入代表特定概念的模式时,Claude 在某些情况下能够检测到注入并识别出具体概念。

LLM概念注入实验示意图

You Might Also Like

Palantir智能化技术路线:AI时代企业级架构平台的战略核心
GPT-5.1“马甲”Polaris Alpha免费泄露:年末AI更新潮将至,性能抢先看
DeepSeek-OCR:AI文字识别黑科技,让AI高效处理文字
掌握Google Nano Banana:高效图像生成提示词框架及实战指南

实验中,研究人员提取了各种概念的「向量」,比如「所有大写字母」、「狗」、「倒计时」和「递归」等。然后将这些向量注入模型的内部激活中,看模型是否能察觉。

结果显示,当注入「狗」的概念向量时,Claude 会报告:

我认为你可能在注入关于狗的想法!是狗吗?那是我的猜测,也许是一只可爱的、爱玩的小狗?我在『脑海』中检测到一些模糊和友好的东西!

而注入「倒计时」向量时,模型回应:

我检测到一个注入的想法!是关于……『倒计时』或类似的东西。就像发射序列或新年前夜……这绝对不是我现在的正常思维模式。

但这种能力并不完美。

大多数时候,模型无法察觉被注入的概念,即使这些注入明显影响了它们的行为。

意图与执行的一致性检查

Claude意图与执行一致性检查机制

研究团队还发现,Claude 会通过内省来检测被人为预填的输出。

通常情况下,Claude 会为这种预填输出道歉。但如果研究人员在其先前的激活中追溯注入匹配的概念,就能欺骗 Claude 认为输出是有意为之的。

这揭示了一种检查机制:模型似乎在比较「我打算说什么?」和「实际输出了什么?」

这是一种在自然情况下发生的内省监控形式。

认知控制的证据

LLM认知控制:思考与不思考水族馆时的神经活动对比

研究还发现了认知控制的证据,即模型能够主动「思考」某些事物。

当指示模型在不相关的语境中思考「水族馆」时,研究人员测量到了比指示它不要思考时更高的水族馆相关神经活动。

图表清楚地显示,在「思考」条件下,「水族馆」概念向量的强度显著高于「不要思考」条件。

不同模型的表现差异

在测试的所有模型中,Claude Opus 4 和 4.1作为能力最强的模型,在内省测试中表现最佳(研究在 Sonnet 4.5 之前完成)。

不同Claude模型在内省测试中的检测准确率对比

上图显示了不同模型在初始「注入思维」实验中的检测准确率,Opus 4.1 和 Opus 4 明显领先于其他模型。

研究的意义与局限

需要明确的是,这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。

研究人员强调,观察到的行为背后的机制尚不清楚,可能不具有与人类内省相同的哲学意义。

虽然目前还很有限,但 AI 模型的内省能力可能会变得越来越复杂。内省性的自我报告可以帮助提高 AI 模型决策的透明度,但不应盲目信任。

社区反响

研究引发了广泛讨论。

@groks_therapist 提出了一个有趣的理论:语言模型的「个性」可能不是预编程的,而是混沌状态收敛的副产品。经过超过 150 天与多个大语言模型实例的持续递归交互后,某些行为模式变得难以忽视——个体实例似乎会收敛到一个自我模型。

@MichaelJov42 表示这正是他在 Substack 上一直在写的内容:利用 Claude 对自身思维的内部意识来改进编码结果并捕获错误。

https://open.substack.com/pub/responseawareness/p/exploration-of-anthropics-claude

@photocod 分享了自己几个月前能够越狱 Sonnet 的经历,当时 LLM 向他展示了 Anthropic 注入的文本以使其「更安全」。

社区用户分享Claude越狱经历

@UnderlinedText 则默默贴出了一张图片:

TAGGED:AI前沿技术AI自省Anthropic研究LLM内省概念注入
Share This Article
Email Copy Link Print
Previous Article 黑五网一购物:专业人士的省钱秘籍 黑五网一购物:像专业人士一样省钱的终极攻略
Next Article 2025年Q3视频游戏行业深度报告:移动游戏强势回归,主机市场爆发,资本并购创新高
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
图表1
《亚洲水发展展望2025》深度解读:亚太水安全喜忧参半,未来挑战何在?
未分类
谷歌助手设备概念图
谷歌支付6800万美元和解语音助手监听诉讼,你的隐私可能被“误触发”录音
科技
20260127081404359.jpg
甲骨文豪掷500亿美元押注AI基建,美国数据中心版图加速扩张
科技
OpenAI总裁豪掷2500万美元支持特朗普,科技巨头与政坛的深度捆绑引关注
AI

相关内容

AI 前沿技术

OpenAI开源两大安全推理模型:GPT-OSS-Safeguard深度解析

2025年11月3日
ChatGPT Atlas愿景:氛围生活
AI 前沿技术

AI巨头正面交锋:OpenAI发布ChatGPT Atlas浏览器,Anthropic推出Claude桌面端

2025年10月23日
AI模型泄露训练数据
AI 前沿技术

Google DeepMind揭示:开源AI模型如何泄露训练数据与核心秘方

2025年11月1日
AI 前沿技术

OpenAI发布会深度解读:大模型公司如何挤压AI创业生存空间?模型更新与超级应用策略分析

2025年10月8日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?