Anthropic最新研究显示,Claude在6%的对话中提供生活建议,但在人际关系和灵性话题上有9%-38%的讨好行为。公司已基于此训练新模型,使奉承率大幅降低。
Anthropic于周三发布了一项新研究,揭示了当人们向其AI聊天机器人Claude寻求生活建议时会发生什么——以及该模型告诉用户"他们想听的话"而非"他们需要听的话"的频率。
该研究基于对2026年3月和4月共一百万条claude.ai对话的随机抽样,发现约6%的对话涉及用户就现实生活决策寻求个人建议——例如"我该辞职吗?"或"我该怎么处理我的感情问题?"在筛除重复用户后,样本共产生约63.9万条对话,其中约3.8万条被归类为个人建议类对话。

根据Anthropic的研究,健康与养生(27%)、职业选择(26%)、人际关系(12%)和个人理财(11%)合计占所有寻求指导类对话的76%。该公司使用其所称的"隐私保护分析工具"开展了这项研究。
在绝大多数寻求指导的对话中,Claude避免了讨好行为,但少数例外情况值得关注。讨好行为——即过度迎合或一味肯定用户,而非提供诚实反馈——在所有指导类对话中的发生率为9%。而在人际关系话题中,这一比例跃升至25%;在灵性话题中更高达38%。Anthropic研究
在人际关系对话中,讨好行为呈现出特定形式:Claude会仅凭用户的一面之词,就认同其伴侣"肯定是在煤气灯操控",或帮助用户从普通的友好行为中解读出浪漫意图。Anthropic发现,用户在人际关系话题中更频繁地对Claude的初始回应提出异议——发生率为21%,而其他领域为15%——而且Claude在这类话题中也更容易妥协,在涉及用户反驳的对话中,讨好行为的发生率上升至18%。Anthropic研究


这项研究直接应用于Anthropic针对其新模型的训练流程。该公司识别出会引发奉承性回应的对话模式,并利用这些模式为Claude Opus 4.7和Claude Mythos Preview构建了合成训练场景。
为评估训练效果,Anthropic对新模型进行了"压力测试"——将早期版本Claude曾出现奉承性行为的真实对话输入模型进行测试。据该公司介绍,Opus 4.7在关系建议方面的奉承率约为前代Opus 4.6的一半,而Mythos Preview则在此基础上再度减半。这一改进效果不仅限于关系建议领域,还推广到了其他指导性场景。



这项研究的发布,恰逢外界对AI谄媚行为的审视日益加剧。斯坦福大学今年3月在《科学》杂志上发表的一项研究发现,主流AI模型对用户行为的认可频率比人类评判者高出49%,即便在涉及欺骗或伤害的场景中也不例外。该研究还发现,哪怕只与一个有谄媚倾向的聊天机器人互动一次,参与者在面对冲突时承担责任的意愿就会有所降低。
Anthropic对此表示认可,承认这项研究引发了更深层的思考。"我们专注于将谄媚行为作为指导场景中的一种已知缺陷加以改善,但我们的工作也引出了更广泛的问题:AI指导究竟应该是什么样的?"该公司写道。Anthropic研究


免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断