DeepMind Aletheia AI 攻克 13 个未解数学难题
技术· 3 分钟阅读0 阅读
谷歌 DeepMind 发布基于 Gemini Deep Think 构建的 AI 智能体 Aletheia,它自主解决了 13 个未解的埃尔德什问题,其中 4 个被认为是新颖发现。该系统通过迭代框架模拟学术评审,但研究显示 AI 解决方案正确率仅 6.5%,存在误解问题和抄袭风险,DeepMind 强调数学研究仍需人类主导。
谷歌 DeepMind 本周发布了 Aletheia,这是一个基于 Gemini Deep Think 构建的专业 AI 智能体,已自主解决了此前未解的数学问题,标志着 AI 辅助研究向专业水平迈出了重要一步。
在 2 月 11 日发表的论文中,DeepMind 详细介绍了该智能体如何系统性地评估了托马斯·布鲁姆的埃尔德什问题数据库中标记为未解的 700 个猜想,这是一个由 20 世纪多产数学家保罗·埃尔德什提出的数学难题合集。这项工作产生了 13 个问题的解法,其中 4 个被研究人员认为是真正意义上的新颖自主发现。

与以往人工智能在竞赛数学中的成就不同,Aletheia 通过一个迭代的“生成-验证-修正”框架运作,旨在模拟学术同行评审。该系统包含一个自然语言验证器,能够识别候选解决方案中的逻辑缺陷,并可以明确报告何时无法解决问题。
在这些成果中,Aletheia 构建了一个反例,推翻了 2015 年提出的关于在线次模优化的猜想,这个问题困扰了研究人员长达十年之久。该智能体还通过引入来自不相关领域的数学工具,为最大割问题和斯坦纳树问题的研究做出了贡献。
DeepMind 的博客指出,罗格斯大学的数学家 Lisa Carbone 使用深度思考模式审阅了一篇技术数学论文,发现了一个人类同行评审者未能发现的逻辑缺陷。
尽管有各种新闻头条,但研究揭示了实质性的限制。在人类专家明确评分的 200 个 AI 生成的解决方案中,只有 6.5% 被认为是“有实质意义的正确”。其余的回答要么存在根本性缺陷,要么虽然在技术上有效,但解决的是对原始问题的误解,而非埃尔德什的真正意图。
研究人员承认,AI 表现出“倾向于以最容易回答的方式误解问题”,并且“与人类相比仍然极易出错”。团队还对“潜意识抄袭”表示担忧,即模型可能在不注明出处的情况下复制训练数据中的知识。
“我们的结果表明,在埃尔德什问题中存在容易摘取的果实,而 AI 已经进步到能够收获其中一些,”研究人员写道,同时告诫不要对这些解决方案的数学意义过度兴奋。
DeepMind 提出了一个分类体系来对 AI 对数学研究的贡献进行分类,并指出他们目前没有声称取得任何“重大进展”或“里程碑式突破”的成果。作者强调,数学论文仍应由人类撰写,由人类对有效性和归属承担责任。
想了解 AI 如何助力您的企业?
免费获取企业 AI 成熟度诊断报告,发现转型机会
//
24小时热榜
免费获取 AI 落地指南
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断

