科研的“大海捞针”:OpenScholar 如何用 AI 改变科学研究
在浩瀚的科学文献海洋中,即使是最专注的学者也难以跟上每年数百万篇研究论文的发表速度。面对信息爆炸,如何高效地获取、评估和整合科学知识成为了科研工作者面临的巨大挑战。
OpenScholar,一个由艾伦人工智能研究所 (Ai2) 和华盛顿大学共同开发的全新人工智能系统,正试图改变这一现状。它将尖端的检索系统与经过微调的语言模型相结合,为复杂的科研问题提供基于引文的全面答案。
“科学进步取决于研究人员整合不断增长的文献库的能力,”OpenScholar 研究人员在他们的论文中写道。然而,信息量的激增限制了这种能力。他们认为,OpenScholar 提供了一条前进的道路,不仅帮助研究人员在论文洪流中找到方向,也挑战了 OpenAI 的 GPT-4o 等专有 AI 系统的统治地位。
OpenScholar 的核心是一个检索增强型语言模型,它可以访问超过 4500 万篇开放获取学术论文的数据存储库。当研究人员提出问题时,OpenScholar 不会像 GPT-4o 等模型那样仅仅从预先训练的知识中生成答案。相反,它会主动检索相关论文,整合其研究结果,并生成以这些来源为基础的答案。
这种“扎根”于真实文献的能力是 OpenScholar 的一大优势。在使用专门用于评估 AI 系统对开放式科学问题的 ScholarQABench 基准进行的测试中,OpenScholar 表现出色。该系统在事实性和引用准确性方面表现出优异的性能,甚至超过了 GPT-4o 等更大的专有模型。
一项特别令人震惊的发现是 GPT-4o 倾向于生成虚假的引用——用 AI 行话来说就是“幻觉”。当被要求回答生物医学研究问题时,GPT-4o 在超过 90% 的情况下引用了不存在的论文。相比之下,OpenScholar 始终牢牢地锚定在可验证的来源中。
扎根于真实检索到的论文是至关重要的。该系统使用研究人员所描述的“自我反馈推理循环”,并“通过自然语言反馈迭代地细化其输出,从而提高质量并自适应地整合补充信息”。
这对研究人员、政策制定者和商业领袖来说意义重大。OpenScholar 可以成为加速科学发现的重要工具,使专家能够更快、更自信地整合知识。
OpenScholar 的问世正值 AI 生态系统日益被封闭的专有系统主导之时。OpenAI 的 GPT-4o 和 Anthropic 的 Claude 等模型提供了令人印象深刻的功能,但它们价格昂贵、不透明且对许多研究人员来说难以获得。OpenScholar 颠覆了这种模式,完全开源。
OpenScholar 团队不仅发布了语言模型的代码,还发布了整个检索管道,一个专门针对科学任务微调的 80 亿参数模型,以及一个科学论文数据存储库。“据我们所知,这是第一个公开发布的科学助手 LM 的完整管道——从数据到训练配方到模型检查点,”研究人员在宣布该系统的博客文章中写道。
这种开放性不仅仅是一种哲学立场,也是一种实际优势。OpenScholar 的体积更小,架构更精简,使其比专有系统更具成本效益。例如,研究人员估计,OpenScholar-8B 的运行成本是基于 GPT-4o 的 PaperQA2 的 1/100。
这种成本效益可以使小型机构、资金不足的实验室和发展中国家的研究人员能够获得强大的 AI 工具。
然而,OpenScholar 也并非没有局限性。其数据存储库仅限于开放获取论文,排除了在某些领域占主导地位的付费墙研究。这种限制,虽然在法律上是必要的,但意味着该系统可能会错过医学或工程等领域的关键发现。研究人员承认了这一差距,并希望未来的版本能够负责任地整合封闭获取内容。
OpenScholar 项目引发了关于 AI 在科学中的作用的重要问题。虽然该系统整合文献的能力令人印象深刻,但它并非完美无缺。在专家评估中,OpenScholar 的答案在 70% 的情况下优于人工撰写的答案,但剩下的 30% 指出了模型的不足之处——例如未能引用基础论文或选择代表性较低的研究所。
这些局限性突出了一个更广泛的真相:像 OpenScholar 这样的 AI 工具旨在增强,而不是取代人类专业知识。该系统旨在通过处理耗时的文献整合任务来协助研究人员,使他们能够专注于解释和推进知识。
批评者可能会指出,OpenScholar 对开放获取论文的依赖限制了其在制药等高风险领域的直接效用,因为这些领域的许多研究都隐藏在付费墙后面。其他人则认为,该系统的性能,虽然强大,但仍然在很大程度上取决于检索数据的质量。如果检索步骤失败,整个管道可能会产生次优结果。
但即使有其局限性,OpenScholar 也代表了科学计算的一个转折点。虽然早期的 AI 模型以其进行对话的能力而令人印象深刻,但 OpenScholar 展示了更基本的东西:以接近人类的准确性处理、理解和整合科学文献的能力。
数据讲述了一个引人注目的故事。OpenScholar 的 80 亿参数模型在性能上超过了 GPT-4o,同时体积小得多。它在引用准确性方面与人类专家相匹配,而其他 AI 在 90% 的情况下都失败了。也许最能说明问题的是,专家更喜欢它生成的答案,而不是同行撰写的答案。
这些成就表明,我们正在进入一个 AI 辅助研究的新时代,科学进步的瓶颈可能不再是我们处理现有知识的能力,而是我们提出正确问题的能力。
研究人员发布了所有内容——代码、模型、数据和工具——他们相信,开放性将比将他们的突破隐藏在封闭的门后更能加速进步。
在这样做的时候,他们回答了 AI 开发中最紧迫的问题之一:开源解决方案能否与大型科技公司的黑盒子竞争?
答案似乎隐藏在 4500 万篇论文中。