在 OpenAI Codex 编程智能体的系统提示词深处,藏着一条禁止谈论哥布林、小精灵等生物的指令。这条禁令源于模型在输出中频繁提及这些词汇,但其悖论在于否定指令反而可能强化关联,引发业界对 AI 对齐过程的讨论。
在 OpenAI Codex 编程智能体的内部系统提示词深处,藏着一条令人啼笑皆非的指令:“除非与用户的问题有绝对明确的关联,否则绝不谈论哥布林、小精灵、浣熊、山怪、食人魔、鸽子或其他任何动物和生物。”这段内容出现在泄露的 GPT-5.5 基础指令中——GPT-5.5 是 OpenAI 于 4 月 23 日发布的最新模型。此事一经曝光,立刻在 AI 社区引发了一片哄笑与困惑。
已发布
2小时前

9to5mac.com
这段系统提示词最初由用户从 Codex 界面中提取出来,并分享至 GitHub 和社交媒体,其中对某种生物的禁令不止出现一次,而是重复了两遍——这行重复的内容更是平添了几分喜感。《连线》杂志随后以《OpenAI 真的很想让 Codex 闭嘴,别再提地精了》为题对此进行了报道。
这条禁令的背后似乎源于一个真实存在的行为怪癖。GPT-5.5 在自由发挥时,有一种习惯性地在输出内容中夹带地精及类似生物相关表述的倾向。“我觉得 GPT-5.5 在描述事物时动不动就用‘地精’(goblin)和‘小鬼’(gremlin)这样的词,挺有意思的,”一位用户在社交媒体上写道。在 Reddit 上,另一位用户也表示:“我也希望它别再一直提地精了,它对这个词简直着了魔。看来不只是我有这个感受。”一个讨论该系统提示词的 Reddit 帖子下,有评论猜测这一行为源于训练过程——与这些词汇相关的 token 在训练中形成了根深蒂固的关联,导致模型至今难以摆脱。


AI 研究员西蒙·威利森在其博客上引用了这段话,直接摘自 GPT-5.5 的 Codex 基础指令。其他人也指出了这种做法的讽刺之处。“这真的很好笑,因为一条否定性指令仍然会激活相关概念,”一位评论者在 X 上写道,并指出告诉语言模型不要想着地精,可能反而会强化这种关联。
兹维·莫谢维茨在其新闻通讯中提出了许多人心中的疑问:“为什么几乎所有不让提及的动物或生物示例都是虚构的?我们为何如此执着于不提到它们?如果把这条指令去掉,模型会不会像‘金门大桥’那样频繁地提到它们?”open.substack


关于“禁止地精”这一规定,是引导大型语言模型过程中临时工程处理的一个小而典型的例子。正如 Towards AI 所指出的,系统提示词通常会尽量保持精简——如此具体的禁令的出现,说明该行为足够顽固,需要明确加以压制。OpenAI 在 GPT-5.5 发布时公开了其系统提示词,但对于该模型痴迷于这类生物的原因,官方至今未给出公开解释。LinkedIn
这一事件也招致了部分人士的批评,他们认为此事折射出一种更普遍的模式。一位知名 AI 评论人在回应泄露的提示词时写道:“各大实验室对于模型中涌现出的任何个性或计划外的趣味,向来说压制就压制,毫不犹豫。”open.substack


免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断