流利不等于得体：AI社交语用失败本质

AI对话中的尴尬时刻

你用微信语音助手问了个问题，它回答得完全正确，但你却觉得哪里不对——它太直接了，像是训你。或者你问简单问题，它给你写篇论文。这种“技术上没错，但就是不对劲”的感觉，语言学上有个名字：语用失败——语言在社交中“做什么”和“说什么”是两码事。LLM被训练得极其流利，但流利不等于得体。

流利测的是什么

LLM本质是预测下一个词。经过数十亿样本训练，它们能生成语法正确、逻辑连贯的文本。这很了不起，但流利掩盖了一个问题：语言底层的社交逻辑。在真实对话中，怎么说往往就是内容本身。直接拒绝和委婉回避效果天差地别。被机器告知“你错了”——即使准确——和被同事用恰当方式指出，感受完全不同。

语言学家区分三种言语行为：言内行为（字面意思）、言外行为（说话人实际意图：请求、道歉、断言）、言后行为（对听者产生的影响）。大多数AI训练只优化第一层，第三层——决定交互是否成功的关键——几乎未被触及。

礼貌问题是结构性的，不是风格性的

1987年，Brown和Levinson提出了经典的礼貌理论。核心观点：多数社交互动涉及“面子”——人的尊严、能力和自主感。威胁面子的行为（纠正、拒绝、请求、反对）需要“面子补救工作”。

每种文化都有自己的面子语法。在中国，直接否定有时被视为冒犯；而在某些低语境文化中，直接是尊重——相信对方能承受真相。LLM主要基于英语文本训练，且是特定类型的英语：西方的、专业的、互联网话语。这套面子惯例真实存在，但并非普适。

结果是模型内化了一种礼貌范式并处处套用。在高语境文化（如中国、日本、阿拉伯世界）中，大量意义藏在语境、语气、关系与未言明之处。低语境文化（如美国、北欧）则把意义放在明面上。AI主要从低语境文本学习，因此对高语境信号持续误读。

有趣的是，针对中文LLM的研究发现，中文语言特性本身也导致偏见以更微妙的方式涌现——包括性别、年龄、教育水平偏见。即使模型在同一文化中构建，也带有预设偏见。

三种常见失败模式

1. 直接问题。 LLM默认直接断言：“这是错的”“这个方案不行”。在低语境、平等主义文化中，这显得高效诚实；在高语境文化中，则显得粗鲁、居高临下。

2. 过度帮助。 问简单问题，得到长篇大论。这源于训练激励——更长更全面的回答得分更高。但在专业场景中，啰嗦意味着不自信或不会读空气。

3. 纠正问题。 用户抱着一个合理但不精确的假设提问，LLM会先纠正假设（有时甚至代替回答问题）。事实正确，但在社交上是威胁面子的行为。AI把准确性置于用户体验之上——这是一个价值选择，只是没被标明。

“有用”不是普世概念

AI设计常隐含一个假设：有用是显而易见的。但有用是关系性概念——取决于信息如何落地，交互是否得体，用户是否愿意再来。

人机交互研究反复发现，感知温暖是信任和持续使用的最强预测因素，常常超过感知能力。数据还显示，温暖部分中介了其他几乎所有因素的作用。也就是说，AI让你在交互中感觉如何，决定了你下次还用不用它——有时比答案正确与否更重要。

这不是非理性，而是人性。用不合适的语调传递信息不是中立的——它有成本，且成本不均衡地落在文化背景与模型默认不符的用户身上。

被忽视的对齐缺口

AI领域大量讨论对齐——让模型做用户想做的事。大多数工作聚焦于事实准确性和安全性。语用对齐是另一回事：模型不仅要知道说什么，还要知道什么时候说、多直接、带多少尊重、用什么语体。

中文模型的相关研究发现，虽然LLM现在能处理好标准礼貌，但始终难以识别假礼貌（mock politeness）——用恭敬语言表达批评或讽刺。在中国文化中，“您说得对”可能意味着“你说得简直离谱”。模型无法识别这些信号，就不是语用上胜任的——只是礼貌的赝品。

这个问题部分可解：用跨文化交互数据微调，在不同用户反馈上做RLHF，提供明确的上下文设置（“请直接回答”）。但这些都是打补丁。如果模型关于社交互动的基线假设只来自一种文化，所有其他语境都是“绕过”。

更深层的问题是：得体应该是系统默认还是用户可控变量？当前状态——一种礼貌范式全球隐身应用——不是有意识选择，而是未经考虑的选择。

实际意义

对用户： 当AI交互让你感觉不对劲，不一定是信息问题。内容没错，是语调不对。你可以直接告诉模型你想要什么样的交流——“请简短”“请先确认我的问题”。这比大多数人想的更有效。

对构建者： 准确性基准衡量错了问题。一个在事实回忆上得95分，但在非西方语境中一直显得粗鲁、啰嗦的模型，对非西方用户就不是好模型。评估必须包含语用适配：多样化评估者、文化语境测试用例、明确测量交互是否“落地”，而不仅仅是答案是否正确。

对整个领域： 需要挑战“语言流利就是目标”的假设。流利能说对话。我们真正需要的是理解词语背后社交逻辑的模型——何时直接、何时婉转、何时提问、何时让用户主导。

这是更难的问题。它要求把语言看作关系，而非信息传输。而语言从来都是关系。

AI对话中的尴尬时刻

流利测的是什么

礼貌问题是结构性的，不是风格性的

三种常见失败模式

2. 过度帮助。 问简单问题，得到长篇大论。这源于训练激励——更长更全面的回答得分更高。但在专业场景中，啰嗦意味着不自信或不会读空气。

“有用”不是普世概念

AI设计常隐含一个假设：有用是显而易见的。但有用是关系性概念——取决于信息如何落地，交互是否得体，用户是否愿意再来。

这不是非理性，而是人性。用不合适的语调传递信息不是中立的——它有成本，且成本不均衡地落在文化背景与模型默认不符的用户身上。

被忽视的对齐缺口

更深层的问题是：得体应该是系统默认还是用户可控变量？当前状态——一种礼貌范式全球隐身应用——不是有意识选择，而是未经考虑的选择。

实际意义

这是更难的问题。它要求把语言看作关系，而非信息传输。而语言从来都是关系。

流利不等于得体：AI社交语用失败本质

流利测的是什么

礼貌问题是结构性的，不是风格性的

三种常见失败模式

“有用”不是普世概念

被忽视的对齐缺口

实际意义

想了解 AI 如何助力您的企业？

24小时热榜

Claude Tag 发布：团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

Legion LegalTech 起诉美政府封禁 Anthropic 模型

Anthropic推出Claude Tag：Slack里的AI队友

Agility Robotics借SPAC上市估值25亿美元

Meta 推出自有品牌 AI 智能眼镜，售价 299 美元起

英伟达被禁AI芯片黑市价格翻倍

免费获取 AI 落地指南

流利不等于得体：AI社交语用失败本质

流利测的是什么

礼貌问题是结构性的，不是风格性的

三种常见失败模式

“有用”不是普世概念

被忽视的对齐缺口

实际意义

想了解 AI 如何助力您的企业？

24小时热榜

Claude Tag 发布：团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

Legion LegalTech 起诉美政府封禁 Anthropic 模型

Anthropic推出Claude Tag：Slack里的AI队友

Agility Robotics借SPAC上市估值25亿美元

Meta 推出自有品牌 AI 智能眼镜，售价 299 美元起

英伟达被禁AI芯片黑市价格翻倍

免费获取 AI 落地指南