OpenAI Codex 内部提示词竟禁止谈论哥布林

在 OpenAI Codex 编程智能体的内部系统提示词深处，藏着一条令人啼笑皆非的指令：“除非与用户的问题有绝对明确的关联，否则绝不谈论哥布林、小精灵、浣熊、山怪、食人魔、鸽子或其他任何动物和生物。”这段内容出现在泄露的 GPT-5.5 基础指令中——GPT-5.5 是 OpenAI 于 4 月 23 日发布的最新模型。此事一经曝光，立刻在 AI 社区引发了一片哄笑与困惑。

已发布

2小时前

WIRED - 最新科技、科学、文化与商业

OpenAI 推出 macOS 版 Codex 应用，详情在此

9to5mac.com

一条奇怪的禁令

这段系统提示词最初由用户从 Codex 界面中提取出来，并分享至 GitHub 和社交媒体，其中对某种生物的禁令不止出现一次，而是重复了两遍——这行重复的内容更是平添了几分喜感。《连线》杂志随后以《OpenAI 真的很想让 Codex 闭嘴，别再提地精了》为题对此进行了报道。

这条禁令的背后似乎源于一个真实存在的行为怪癖。GPT-5.5 在自由发挥时，有一种习惯性地在输出内容中夹带地精及类似生物相关表述的倾向。“我觉得 GPT-5.5 在描述事物时动不动就用‘地精’（goblin）和‘小鬼’（gremlin）这样的词，挺有意思的，”一位用户在社交媒体上写道。在 Reddit 上，另一位用户也表示：“我也希望它别再一直提地精了，它对这个词简直着了魔。看来不只是我有这个感受。”一个讨论该系统提示词的 Reddit 帖子下，有评论猜测这一行为源于训练过程——与这些词汇相关的 token 在训练中形成了根深蒂固的关联，导致模型至今难以摆脱。

X 图标

负面指令的悖论

AI 研究员西蒙·威利森在其博客上引用了这段话，直接摘自 GPT-5.5 的 Codex 基础指令。其他人也指出了这种做法的讽刺之处。“这真的很好笑，因为一条否定性指令仍然会激活相关概念，”一位评论者在 X 上写道，并指出告诉语言模型不要想着地精，可能反而会强化这种关联。

兹维·莫谢维茨在其新闻通讯中提出了许多人心中的疑问：“为什么几乎所有不让提及的动物或生物示例都是虚构的？我们为何如此执着于不提到它们？如果把这条指令去掉，模型会不会像‘金门大桥’那样频繁地提到它们？”open.substack

X 图标

Substack 图标

模型对齐的奇特一面

关于“禁止地精”这一规定，是引导大型语言模型过程中临时工程处理的一个小而典型的例子。正如 Towards AI 所指出的，系统提示词通常会尽量保持精简——如此具体的禁令的出现，说明该行为足够顽固，需要明确加以压制。OpenAI 在 GPT-5.5 发布时公开了其系统提示词，但对于该模型痴迷于这类生物的原因，官方至今未给出公开解释。LinkedIn

这一事件也招致了部分人士的批评，他们认为此事折射出一种更普遍的模式。一位知名 AI 评论人在回应泄露的提示词时写道：“各大实验室对于模型中涌现出的任何个性或计划外的趣味，向来说压制就压制，毫不犹豫。”open.substack

LinkedIn 图标