在美以联合军事行动三天前,xAI 的 Grok 聊天机器人准确预测了 2 月 28 日这一日期,而其他大语言模型均未命中。这一结果来自《耶路撒冷邮报》的实验,旨在测试 AI 在模糊情境下的分析能力,而非提供预测服务。
在美国和以色列于 2 月 28 日星期六对伊朗发动协同军事打击的三天前,xAI 的 Grok 聊天机器人就已经准确说出了这个日期。这一预测来自《耶路撒冷邮报》于 2 月 25 日发表的一项方法论实验,该实验向四个 AI 平台提出了同一个问题:美国何时会打击伊朗?jpost
在接受测试的四个系统中——Anthropic 的 Claude、谷歌的 Gemini、xAI 的 Grok 和 OpenAI 的 ChatGPT——只有 Grok 准确命中了正确日期。它预测“美国将在 2026 年 2 月 28 日进行有限打击,与日内瓦谈判的结果相关”。当使用更新的测试版模式再次检查时,Grok 虽然承认存在不确定性,但仍重复了同一日期。
其他模型均未命中。Claude 最初拒绝给出具体日期,最终给出了 3 月 7 日或 8 日。Gemini 给出了 3 月 4 日晚至 3 月 6 日的时间窗口。ChatGPT 最初说是 3 月 1 日,然后在深入分析后修改为 3 月 3 日。
打击开始后不久,马斯克在 X 上回应道:“对未来的预测是衡量智能的最佳标准。”
空袭于伊朗时间周六上午 9 点 45 分左右开始,以色列首先发起代号为“怒狮”的行动,随后美军展开“史诗之怒”行动。唐纳德·特朗普总统在视频讲话中宣布进行“重大战斗行动”,称美国将“摧毁”伊朗的导弹并拆除其导弹工业。德黑兰、伊斯法罕、库姆、卡拉季和克尔曼沙阿均有爆炸报道。
据美联社和路透社报道,伊朗最高领袖阿亚图拉·阿里·哈梅内伊在空袭中身亡。伊朗对以色列以及美国在巴林、阿联酋和卡塔尔的军事设施发动了报复性打击。
《耶路撒冷邮报》谨慎地将其测试定位为一次压力测试,而非预测服务。文章指出:“AI 模型被逼得越紧,给出的答案就越具体,尽管现实世界并没有变得更清晰。”jpost
Grok 的预测基于公开可获得的信号——日内瓦外交谈判、特朗普在 2 月 19 日提出的 10 至 15 天最后期限,以及该地区更广泛的军事集结。路透社当时的报道指出,任何袭击的时间仍不明确,一位美国高级官员暗示要到 3 月中旬所有部队才能就位。jpost
Grok 准确预测的消息之所以迅速传播,得益于其与 X 平台的整合,在空袭开始后的几分钟内,截图就开始流传。这一结果究竟反映了真正的分析优势,还是在一项旨在将 AI 模型推向其预期极限之外的测试中的幸运巧合,仍是一个悬而未决的问题——《耶路撒冷邮报》本身也预见到了这一点。文章总结道:“互联网向机器人索要一个日期,机器人给出了答案。”

免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断