前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

开源AI超越GPT-4,科研新突破

洞察2024年11月21日· 5 分钟阅读9 阅读

科研的“大海捞针”:OpenScholar 如何用 AI 改变科学研究 在浩瀚的科学文献海洋中,即使是最专注的 […]

科研的“大海捞针”:OpenScholar 如何用 AI 改变科学研究

在浩瀚的科学文献海洋中,即使是最专注的学者也难以跟上每年数百万篇研究论文的发表速度。面对信息爆炸,如何高效地获取、评估和整合科学知识成为了科研工作者面临的巨大挑战。

OpenScholar,一个由艾伦人工智能研究所 (Ai2) 和华盛顿大学共同开发的全新人工智能系统,正试图改变这一现状。它将尖端的检索系统与经过微调的语言模型相结合,为复杂的科研问题提供基于引文的全面答案。

“科学进步取决于研究人员整合不断增长的文献库的能力,”OpenScholar 研究人员在他们的论文中写道。然而,信息量的激增限制了这种能力。他们认为,OpenScholar 提供了一条前进的道路,不仅帮助研究人员在论文洪流中找到方向,也挑战了 OpenAI 的 GPT-4o 等专有 AI 系统的统治地位。

OpenScholar 的核心是一个检索增强型语言模型,它可以访问超过 4500 万篇开放获取学术论文的数据存储库。当研究人员提出问题时,OpenScholar 不会像 GPT-4o 等模型那样仅仅从预先训练的知识中生成答案。相反,它会主动检索相关论文,整合其研究结果,并生成以这些来源为基础的答案。

这种“扎根”于真实文献的能力是 OpenScholar 的一大优势。在使用专门用于评估 AI 系统对开放式科学问题的 ScholarQABench 基准进行的测试中,OpenScholar 表现出色。该系统在事实性和引用准确性方面表现出优异的性能,甚至超过了 GPT-4o 等更大的专有模型。

一项特别令人震惊的发现是 GPT-4o 倾向于生成虚假的引用——用 AI 行话来说就是“幻觉”。当被要求回答生物医学研究问题时,GPT-4o 在超过 90% 的情况下引用了不存在的论文。相比之下,OpenScholar 始终牢牢地锚定在可验证的来源中。

扎根于真实检索到的论文是至关重要的。该系统使用研究人员所描述的“自我反馈推理循环”,并“通过自然语言反馈迭代地细化其输出,从而提高质量并自适应地整合补充信息”。

这对研究人员、政策制定者和商业领袖来说意义重大。OpenScholar 可以成为加速科学发现的重要工具,使专家能够更快、更自信地整合知识。

OpenScholar 的问世正值 AI 生态系统日益被封闭的专有系统主导之时。OpenAI 的 GPT-4o 和 Anthropic 的 Claude 等模型提供了令人印象深刻的功能,但它们价格昂贵、不透明且对许多研究人员来说难以获得。OpenScholar 颠覆了这种模式,完全开源。

OpenScholar 团队不仅发布了语言模型的代码,还发布了整个检索管道,一个专门针对科学任务微调的 80 亿参数模型,以及一个科学论文数据存储库。“据我们所知,这是第一个公开发布的科学助手 LM 的完整管道——从数据到训练配方到模型检查点,”研究人员在宣布该系统的博客文章中写道。

这种开放性不仅仅是一种哲学立场,也是一种实际优势。OpenScholar 的体积更小,架构更精简,使其比专有系统更具成本效益。例如,研究人员估计,OpenScholar-8B 的运行成本是基于 GPT-4o 的 PaperQA2 的 1/100。

这种成本效益可以使小型机构、资金不足的实验室和发展中国家的研究人员能够获得强大的 AI 工具。

然而,OpenScholar 也并非没有局限性。其数据存储库仅限于开放获取论文,排除了在某些领域占主导地位的付费墙研究。这种限制,虽然在法律上是必要的,但意味着该系统可能会错过医学或工程等领域的关键发现。研究人员承认了这一差距,并希望未来的版本能够负责任地整合封闭获取内容。

OpenScholar 项目引发了关于 AI 在科学中的作用的重要问题。虽然该系统整合文献的能力令人印象深刻,但它并非完美无缺。在专家评估中,OpenScholar 的答案在 70% 的情况下优于人工撰写的答案,但剩下的 30% 指出了模型的不足之处——例如未能引用基础论文或选择代表性较低的研究所。

这些局限性突出了一个更广泛的真相:像 OpenScholar 这样的 AI 工具旨在增强,而不是取代人类专业知识。该系统旨在通过处理耗时的文献整合任务来协助研究人员,使他们能够专注于解释和推进知识。

批评者可能会指出,OpenScholar 对开放获取论文的依赖限制了其在制药等高风险领域的直接效用,因为这些领域的许多研究都隐藏在付费墙后面。其他人则认为,该系统的性能,虽然强大,但仍然在很大程度上取决于检索数据的质量。如果检索步骤失败,整个管道可能会产生次优结果。

但即使有其局限性,OpenScholar 也代表了科学计算的一个转折点。虽然早期的 AI 模型以其进行对话的能力而令人印象深刻,但 OpenScholar 展示了更基本的东西:以接近人类的准确性处理、理解和整合科学文献的能力。

数据讲述了一个引人注目的故事。OpenScholar 的 80 亿参数模型在性能上超过了 GPT-4o,同时体积小得多。它在引用准确性方面与人类专家相匹配,而其他 AI 在 90% 的情况下都失败了。也许最能说明问题的是,专家更喜欢它生成的答案,而不是同行撰写的答案。

这些成就表明,我们正在进入一个 AI 辅助研究的新时代,科学进步的瓶颈可能不再是我们处理现有知识的能力,而是我们提出正确问题的能力。

研究人员发布了所有内容——代码、模型、数据和工具——他们相信,开放性将比将他们的突破隐藏在封闭的门后更能加速进步。

在这样做的时候,他们回答了 AI 开发中最紧迫的问题之一:开源解决方案能否与大型科技公司的黑盒子竞争?

答案似乎隐藏在 4500 万篇论文中。

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

TOP1

Anthropic完成H轮融资650亿美元,估值9650亿

OpenAI 发布前沿治理框架
TOP2

OpenAI 发布前沿治理框架

3

台湾逮捕三名涉嫌走私英伟达芯片嫌犯

7小时前
台湾逮捕三名涉嫌走私英伟达芯片嫌犯
4

Waymo 在三城推出 Ojai 自动驾驶出租车

7小时前
Waymo 在三城推出 Ojai 自动驾驶出租车
5

FDA顾问建议新冠疫苗针对XFG变异株

7小时前
FDA顾问建议新冠疫苗针对XFG变异株
6

以色列欧盟施压Anthropic开放Mythos模型

7小时前
以色列欧盟施压Anthropic开放Mythos模型
7

Salesforce一季度豪掷275亿美元回购,押注AI智能体

7小时前
Salesforce一季度豪掷275亿美元回购,押注AI智能体
8

IREN借款36亿美元购买英伟达GPU

3小时前
IREN借款36亿美元购买英伟达GPU
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款