开源AI超越GPT-4，科研新突破

科研的“大海捞针”：OpenScholar 如何用 AI 改变科学研究

在浩瀚的科学文献海洋中，即使是最专注的学者也难以跟上每年数百万篇研究论文的发表速度。面对信息爆炸，如何高效地获取、评估和整合科学知识成为了科研工作者面临的巨大挑战。

OpenScholar，一个由艾伦人工智能研究所 (Ai2) 和华盛顿大学共同开发的全新人工智能系统，正试图改变这一现状。它将尖端的检索系统与经过微调的语言模型相结合，为复杂的科研问题提供基于引文的全面答案。

“科学进步取决于研究人员整合不断增长的文献库的能力，”OpenScholar 研究人员在他们的论文中写道。然而，信息量的激增限制了这种能力。他们认为，OpenScholar 提供了一条前进的道路，不仅帮助研究人员在论文洪流中找到方向，也挑战了 OpenAI 的 GPT-4o 等专有 AI 系统的统治地位。

OpenScholar 的核心是一个检索增强型语言模型，它可以访问超过 4500 万篇开放获取学术论文的数据存储库。当研究人员提出问题时，OpenScholar 不会像 GPT-4o 等模型那样仅仅从预先训练的知识中生成答案。相反，它会主动检索相关论文，整合其研究结果，并生成以这些来源为基础的答案。

这种“扎根”于真实文献的能力是 OpenScholar 的一大优势。在使用专门用于评估 AI 系统对开放式科学问题的 ScholarQABench 基准进行的测试中，OpenScholar 表现出色。该系统在事实性和引用准确性方面表现出优异的性能，甚至超过了 GPT-4o 等更大的专有模型。

一项特别令人震惊的发现是 GPT-4o 倾向于生成虚假的引用——用 AI 行话来说就是“幻觉”。当被要求回答生物医学研究问题时，GPT-4o 在超过 90% 的情况下引用了不存在的论文。相比之下，OpenScholar 始终牢牢地锚定在可验证的来源中。

扎根于真实检索到的论文是至关重要的。该系统使用研究人员所描述的“自我反馈推理循环”，并“通过自然语言反馈迭代地细化其输出，从而提高质量并自适应地整合补充信息”。

这对研究人员、政策制定者和商业领袖来说意义重大。OpenScholar 可以成为加速科学发现的重要工具，使专家能够更快、更自信地整合知识。

OpenScholar 的问世正值 AI 生态系统日益被封闭的专有系统主导之时。OpenAI 的 GPT-4o 和 Anthropic 的 Claude 等模型提供了令人印象深刻的功能，但它们价格昂贵、不透明且对许多研究人员来说难以获得。OpenScholar 颠覆了这种模式，完全开源。

OpenScholar 团队不仅发布了语言模型的代码，还发布了整个检索管道，一个专门针对科学任务微调的 80 亿参数模型，以及一个科学论文数据存储库。“据我们所知，这是第一个公开发布的科学助手 LM 的完整管道——从数据到训练配方到模型检查点，”研究人员在宣布该系统的博客文章中写道。

这种开放性不仅仅是一种哲学立场，也是一种实际优势。OpenScholar 的体积更小，架构更精简，使其比专有系统更具成本效益。例如，研究人员估计，OpenScholar-8B 的运行成本是基于 GPT-4o 的 PaperQA2 的 1/100。

这种成本效益可以使小型机构、资金不足的实验室和发展中国家的研究人员能够获得强大的 AI 工具。

然而，OpenScholar 也并非没有局限性。其数据存储库仅限于开放获取论文，排除了在某些领域占主导地位的付费墙研究。这种限制，虽然在法律上是必要的，但意味着该系统可能会错过医学或工程等领域的关键发现。研究人员承认了这一差距，并希望未来的版本能够负责任地整合封闭获取内容。

OpenScholar 项目引发了关于 AI 在科学中的作用的重要问题。虽然该系统整合文献的能力令人印象深刻，但它并非完美无缺。在专家评估中，OpenScholar 的答案在 70% 的情况下优于人工撰写的答案，但剩下的 30% 指出了模型的不足之处——例如未能引用基础论文或选择代表性较低的研究所。

这些局限性突出了一个更广泛的真相：像 OpenScholar 这样的 AI 工具旨在增强，而不是取代人类专业知识。该系统旨在通过处理耗时的文献整合任务来协助研究人员，使他们能够专注于解释和推进知识。

批评者可能会指出，OpenScholar 对开放获取论文的依赖限制了其在制药等高风险领域的直接效用，因为这些领域的许多研究都隐藏在付费墙后面。其他人则认为，该系统的性能，虽然强大，但仍然在很大程度上取决于检索数据的质量。如果检索步骤失败，整个管道可能会产生次优结果。

但即使有其局限性，OpenScholar 也代表了科学计算的一个转折点。虽然早期的 AI 模型以其进行对话的能力而令人印象深刻，但 OpenScholar 展示了更基本的东西：以接近人类的准确性处理、理解和整合科学文献的能力。

数据讲述了一个引人注目的故事。OpenScholar 的 80 亿参数模型在性能上超过了 GPT-4o，同时体积小得多。它在引用准确性方面与人类专家相匹配，而其他 AI 在 90% 的情况下都失败了。也许最能说明问题的是，专家更喜欢它生成的答案，而不是同行撰写的答案。

这些成就表明，我们正在进入一个 AI 辅助研究的新时代，科学进步的瓶颈可能不再是我们处理现有知识的能力，而是我们提出正确问题的能力。

研究人员发布了所有内容——代码、模型、数据和工具——他们相信，开放性将比将他们的突破隐藏在封闭的门后更能加速进步。

在这样做的时候，他们回答了 AI 开发中最紧迫的问题之一：开源解决方案能否与大型科技公司的黑盒子竞争？

答案似乎隐藏在 4500 万篇论文中。