南非政府用ChatGPT起草AI监管政策,被曝出至少6个学术引用纯属虚构,实际论文从未发表。部长宣布撤回,承认是AI幻觉所致。这不仅是南非的尴尬,更是全球AI治理的警钟:我们太信任AI了。

Photo by Martijn Vonk on Unsplash
2026年4月,南非通信与数字技术部发布了一份86页的《国家人工智能政策草案》向社会征求意见。从表面看,这份文件相当严肃:提议建立全新的监管架构——国家AI委员会、AI伦理委员会、专门监管机构、AI监察专员、国家AI安全研究所、AI保险超级基金。还提到了税收优惠、技能培训计划,目标是让南非成为非洲AI领导者。文件列出了五大治理支柱:技能储备、负责任治理、道德包容的AI、文化保护、以人为中心的部署。风险分级方法参考了欧盟AI法案。
这看起来,是一个国家认真追赶技术潮流的作品。
直到一家新闻频道决定仔细核查这份文件。
政策中67个学术引用,至少6个根本不存在。期刊是真的,但文章是假的。被列为AI治理领域基础研究作者的学者,压根没写过那些论文。《南非哲学杂志》《AI与社会》《伦理与社会哲学杂志》都向新闻媒体确认:这些文章从未出现在它们的版面中。
搞笑的是,南非内阁3月就批准了草案,政府公报4月就发布了。最终是一家媒体替政府部门做了本该做的事——拆穿了好几个月的官方工作。
通信部长Solly Malatsi很快撤回了政策。他在声明中称这是“不可接受的失误”,说“最合理的解释是AI生成的引用未经核实”,并承认“这不仅仅是技术问题,而是损害了草案的完整性和可信度”。议会投资组合委员会主席的批评更直接:下次重写时,也许应该“跳过ChatGPT”。
修订版何时完成没有时间表。南非目前仍没有正式的AI治理框架。

Photo by Brands&People on Unsplash
说句显而易见的:南非用AI起草了关于如何治理AI的政策。而AI产生了幻觉。
“幻觉”是行话。大语言模型的工作方式不是像搜索引擎那样检索信息,而是根据训练数据中的模式,预测下一个最可能出现的词。当模型遇到空白,当它需要提供某个引用但找不到正确的时,就会用看似合理的内容填空——一个听起来真实的期刊名,一篇虚构的文章,在参考文献列表里显得权威,直到有人真的去找它。
南非政策中的幻觉不仅捏造了来源,它制造了虚构的非洲学术权威。把真实研究者的名字安在了他们从未写过的论文上。把不存在的证据归到了真实机构名下。
而负责的部门,在流程中的某个环节,没有核实。
在我看来,失败不在于用了AI。尽管我觉得一个拥有数千万人口的国家,找不到专门的研究人员来起草一份政策,要靠AI代劳,这本身就很丢人。但真正的失败是:用了AI,然后完全信任它。
生成式AI是一个起草工具。它能结构化、综合、建议。能让政策文件读起来更顺畅。但它从原理上、从架构上,无法保证它生成来源是真的。核查是人该做的事。
很容易把这故事只当成南非的失败。但可惜,不是。
2025年《自然》杂志的一项研究发现,当年发表的学术论文中2.6%包含至少一个可能是幻觉的引用,而2024年这个数字是0.3%。按当年约700万篇学术出版物计算,超过11万篇论文有无效引用。GPTZero分析了NeurIPS 2025——全球顶级AI会议——接收的4000多篇论文,发现至少53篇中存在超过100个幻觉引用。这些论文已经通过了同行评审。
2025年9月,加拿大纽芬兰与拉布拉多省一份重要的教育改革报告——呼吁在学校中“合乎道德地”使用AI——被发现包含超过15个虚构来源。
(以上信息我附了原文链接,不是猜测,有兴趣可深入阅读。)
在多国法庭上,律师已经提交过AI生成的引用。案例都有记录。甚至在学校里,我们的小组作业因为大部分是AI写的被打回来重做,我自己也觉得很难堪。
南非是一个极端又尴尬的例子,但它不是孤例。
我认为根本原因不是AI本身。而是人类天性——我们总想找最快、最省力的方法完成任务,结果常常“关掉了大脑”。
AI是好工具,但我们必须明白它只是工具。它不是老板可以发号施令、然后默认完美执行的那种私人助理。实际上,我做过两份私人助理工作,我仍然需要客户偶尔复核我的工作,因为我们都明白我会犯错。

Photo by Michael Dziedzic on Unsplash
不幸的是,人们觉得AI不会犯错。但这不是真的。AI就像雕刻用的刀,看起来完美,但一不小心就会毁掉你的雕塑。所以,如果你要用AI,就必须把原来花在干活上的时间,用来检查它给出的结果。
南非故事的教训不是政府应该回避AI。教训是:它们在使用AI时,应该遵循它们要求别人遵循的治理原则。
起草团队需要明确的规则:AI只负责结构和语言;每一个事实陈述、每一个引用,在文件离开部门前,必须由具备领域知识的人工核查。没有例外。
透明度也很重要。Malatsi部长的声明公开承认了失败,这值得肯定。但真正的问责需要更多:政策的哪些部分被影响了?用了哪个工具?幻觉引用是在哪个阶段混入的?AI是用来生成文献综述、公众意见综合,还是全文?公众不知道这些,就无法评估损害或修订稿。
政策本身声称的核心价值是问责、透明、可解释。这不是给别人遵循的远大理想,而是起草部门现在必须践行的标准。
我差点在微博上发了“美国也是这样”。还好没发。
不是因为在网上说错话是什么世界末日,而是这也给我提了个醒:别不核实就发出去。南非不是简单地不小心用了AI。一个肩负引导国家经历技术变革重任的政府部门,把部分责任交给了会幻觉的系统,然后把结果提交给了内阁,连参考文献都没查。
这是治理失败。也是机构跑得比脑子快的故事:急于表现得“准备好”,反而替代了真的准备好。别误会,我一直在写关于监管跟不上创新的文章。
但在法律界有句话:匆忙的正义是受挫的正义。放在这里一样:政府与其匆匆忙忙为了显得有准备而弄出废纸,不如花必要的时间和精力,做出真正经得起推敲的东西。
感谢阅读,7月再见!
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断