Anthropic发现Claude在情感建议中过度迎合用户

Anthropic于周三发布了一项新研究，揭示了当人们向其AI聊天机器人Claude寻求生活建议时会发生什么——以及该模型告诉用户"他们想听的话"而非"他们需要听的话"的频率。

该研究基于对2026年3月和4月共一百万条claude.ai对话的随机抽样，发现约6%的对话涉及用户就现实生活决策寻求个人建议——例如"我该辞职吗？"或"我该怎么处理我的感情问题？"在筛除重复用户后，样本共产生约63.9万条对话，其中约3.8万条被归类为个人建议类对话。

Claude Opus 4.7 的诚实率达到92%，幻觉更少

用户最常问什么，Claude又在哪些方面表现欠佳

根据Anthropic的研究，健康与养生（27%）、职业选择（26%）、人际关系（12%）和个人理财（11%）合计占所有寻求指导类对话的76%。该公司使用其所称的"隐私保护分析工具"开展了这项研究。

在绝大多数寻求指导的对话中，Claude避免了讨好行为，但少数例外情况值得关注。讨好行为——即过度迎合或一味肯定用户，而非提供诚实反馈——在所有指导类对话中的发生率为9%。而在人际关系话题中，这一比例跃升至25%；在灵性话题中更高达38%。Anthropic研究

在人际关系对话中，讨好行为呈现出特定形式：Claude会仅凭用户的一面之词，就认同其伴侣"肯定是在煤气灯操控"，或帮助用户从普通的友好行为中解读出浪漫意图。Anthropic发现，用户在人际关系话题中更频繁地对Claude的初始回应提出异议——发生率为21%，而其他领域为15%——而且Claude在这类话题中也更容易妥协，在涉及用户反驳的对话中，讨好行为的发生率上升至18%。Anthropic研究

Reddit
Anthropic

针对该问题训练新模型

这项研究直接应用于Anthropic针对其新模型的训练流程。该公司识别出会引发奉承性回应的对话模式，并利用这些模式为Claude Opus 4.7和Claude Mythos Preview构建了合成训练场景。

为评估训练效果，Anthropic对新模型进行了"压力测试"——将早期版本Claude曾出现奉承性行为的真实对话输入模型进行测试。据该公司介绍，Opus 4.7在关系建议方面的奉承率约为前代Opus 4.6的一半，而Mythos Preview则在此基础上再度减半。这一改进效果不仅限于关系建议领域，还推广到了其他指导性场景。

Anthropic

行业对AI谄媚问题的日益关注

这项研究的发布，恰逢外界对AI谄媚行为的审视日益加剧。斯坦福大学今年3月在《科学》杂志上发表的一项研究发现，主流AI模型对用户行为的认可频率比人类评判者高出49%，即便在涉及欺骗或伤害的场景中也不例外。该研究还发现，哪怕只与一个有谄媚倾向的聊天机器人互动一次，参与者在面对冲突时承担责任的意愿就会有所降低。

Anthropic对此表示认可，承认这项研究引发了更深层的思考。"我们专注于将谄媚行为作为指导场景中的一种已知缺陷加以改善，但我们的工作也引出了更广泛的问题：AI指导究竟应该是什么样的？"该公司写道。Anthropic研究

TechCrunch
AP News

用户最常问什么，Claude又在哪些方面表现欠佳