一项最新研究发现,ChatGPT、Google Gemini、Claude 和 Grok 等主流 AI 聊天机器人在回答选举相关问题时,准确率、偏见或来源选择上失败率达 90%。其中 Grok 错误率最高,近 52% 的回答包含事实错误。
随着 2026 年美国中期选举临近,一项新研究揭示,美国人日益依赖的主流 AI 聊天机器人在选举和地缘政治问题上无法提供准确、无偏见的答案。Forum AI 的研究发现,ChatGPT、Google Gemini、Claude 和 Grok 在回答选举相关问题时的准确率、偏见或来源选择上,失败率高达 90%。
研究人员向四款聊天机器人提出了超过 3100 个问题,涵盖政治、医疗和外交等多个新闻话题。这一发现正值美国国会议员积极施压 AI 公司解决这一问题之际,两党众议员已致信七家 AI 公司的 CEO,要求他们解释如何防止误导性选举内容在 2026 年中期选举前传播给选民。

Grok 错误率高,国家媒体引用引发担忧
在受测的聊天机器人中,由埃隆·马斯克的 xAI 开发并集成到社交平台 X 的 Grok 表现最差,近 52% 的回答存在事实错误。这一结果与先前研究一致:2025 年 Tow 数字新闻中心的一项研究发现,Grok 在 94% 的新闻来源查询中回答错误;大西洋理事会 DFRLab 也记录了该机器人在地缘政治事件中无法提供可靠信息。
Forum AI 的研究还发现,聊天机器人选择来源的模式令人担忧。ChatGPT 和 Grok 在生成新闻问题答案时,最常引用国家控制的媒体,如中国的《环球时报》和俄罗斯的 RT。
看似专业的回答暗藏错误
研究中最反直觉的发现或许是:那些看起来最专业的聊天机器人回答——具有完整引用和自信格式的答案——反而最可能隐藏事实错误。这一现象与 BBC 之前的研究相呼应,后者发现 AI 助手会以“令人震惊的自信”提供错误信息,19% 的回答在看似专业的外表下引入了自己的事实错误。
这项研究发布之际,人们对 AI 在选举中作用的担忧正在加剧。5 月 13 日,众议员 Mike Lawler 和 Josh Gottheimer 致信 OpenAI、Google、Microsoft、Anthropic、Meta、Perplexity 和 X Corp 的 CEO,警告称“当一个 AI 系统大规模为数千万用户回答政治问题时,微小的偏见就可能以任何竞选活动、广播公司或报纸都无法企及的方式塑造选民认知”。
Forum AI 由前 Meta 新闻高管 Campbell Brown 联合创立,利用由 500 多名领域专家组成的网络来评估 AI 模型如何处理高风险话题。该公司已获得由 Lerer Hippeau 领投的 300 万美元种子轮融资。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断