前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

开源AI超越GPT-4,科研新突破

NEXTECH
Last updated: 2024年11月22日 上午3:13
By NEXTECH
Share
19 Min Read
SHARE

科研的“大海捞针”:OpenScholar 如何用 AI 改变科学研究

在浩瀚的科学文献海洋中,即使是最专注的学者也难以跟上每年数百万篇研究论文的发表速度。面对信息爆炸,如何高效地获取、评估和整合科学知识成为了科研工作者面临的巨大挑战。

OpenScholar,一个由艾伦人工智能研究所 (Ai2) 和华盛顿大学共同开发的全新人工智能系统,正试图改变这一现状。它将尖端的检索系统与经过微调的语言模型相结合,为复杂的科研问题提供基于引文的全面答案。

“科学进步取决于研究人员整合不断增长的文献库的能力,”OpenScholar 研究人员在他们的论文中写道。然而,信息量的激增限制了这种能力。他们认为,OpenScholar 提供了一条前进的道路,不仅帮助研究人员在论文洪流中找到方向,也挑战了 OpenAI 的 GPT-4o 等专有 AI 系统的统治地位。

OpenScholar 的核心是一个检索增强型语言模型,它可以访问超过 4500 万篇开放获取学术论文的数据存储库。当研究人员提出问题时,OpenScholar 不会像 GPT-4o 等模型那样仅仅从预先训练的知识中生成答案。相反,它会主动检索相关论文,整合其研究结果,并生成以这些来源为基础的答案。

这种“扎根”于真实文献的能力是 OpenScholar 的一大优势。在使用专门用于评估 AI 系统对开放式科学问题的 ScholarQABench 基准进行的测试中,OpenScholar 表现出色。该系统在事实性和引用准确性方面表现出优异的性能,甚至超过了 GPT-4o 等更大的专有模型。

一项特别令人震惊的发现是 GPT-4o 倾向于生成虚假的引用——用 AI 行话来说就是“幻觉”。当被要求回答生物医学研究问题时,GPT-4o 在超过 90% 的情况下引用了不存在的论文。相比之下,OpenScholar 始终牢牢地锚定在可验证的来源中。

扎根于真实检索到的论文是至关重要的。该系统使用研究人员所描述的“自我反馈推理循环”,并“通过自然语言反馈迭代地细化其输出,从而提高质量并自适应地整合补充信息”。

这对研究人员、政策制定者和商业领袖来说意义重大。OpenScholar 可以成为加速科学发现的重要工具,使专家能够更快、更自信地整合知识。

OpenScholar 的问世正值 AI 生态系统日益被封闭的专有系统主导之时。OpenAI 的 GPT-4o 和 Anthropic 的 Claude 等模型提供了令人印象深刻的功能,但它们价格昂贵、不透明且对许多研究人员来说难以获得。OpenScholar 颠覆了这种模式,完全开源。

OpenScholar 团队不仅发布了语言模型的代码,还发布了整个检索管道,一个专门针对科学任务微调的 80 亿参数模型,以及一个科学论文数据存储库。“据我们所知,这是第一个公开发布的科学助手 LM 的完整管道——从数据到训练配方到模型检查点,”研究人员在宣布该系统的博客文章中写道。

这种开放性不仅仅是一种哲学立场,也是一种实际优势。OpenScholar 的体积更小,架构更精简,使其比专有系统更具成本效益。例如,研究人员估计,OpenScholar-8B 的运行成本是基于 GPT-4o 的 PaperQA2 的 1/100。

这种成本效益可以使小型机构、资金不足的实验室和发展中国家的研究人员能够获得强大的 AI 工具。

然而,OpenScholar 也并非没有局限性。其数据存储库仅限于开放获取论文,排除了在某些领域占主导地位的付费墙研究。这种限制,虽然在法律上是必要的,但意味着该系统可能会错过医学或工程等领域的关键发现。研究人员承认了这一差距,并希望未来的版本能够负责任地整合封闭获取内容。

OpenScholar 项目引发了关于 AI 在科学中的作用的重要问题。虽然该系统整合文献的能力令人印象深刻,但它并非完美无缺。在专家评估中,OpenScholar 的答案在 70% 的情况下优于人工撰写的答案,但剩下的 30% 指出了模型的不足之处——例如未能引用基础论文或选择代表性较低的研究所。

这些局限性突出了一个更广泛的真相:像 OpenScholar 这样的 AI 工具旨在增强,而不是取代人类专业知识。该系统旨在通过处理耗时的文献整合任务来协助研究人员,使他们能够专注于解释和推进知识。

批评者可能会指出,OpenScholar 对开放获取论文的依赖限制了其在制药等高风险领域的直接效用,因为这些领域的许多研究都隐藏在付费墙后面。其他人则认为,该系统的性能,虽然强大,但仍然在很大程度上取决于检索数据的质量。如果检索步骤失败,整个管道可能会产生次优结果。

但即使有其局限性,OpenScholar 也代表了科学计算的一个转折点。虽然早期的 AI 模型以其进行对话的能力而令人印象深刻,但 OpenScholar 展示了更基本的东西:以接近人类的准确性处理、理解和整合科学文献的能力。

数据讲述了一个引人注目的故事。OpenScholar 的 80 亿参数模型在性能上超过了 GPT-4o,同时体积小得多。它在引用准确性方面与人类专家相匹配,而其他 AI 在 90% 的情况下都失败了。也许最能说明问题的是,专家更喜欢它生成的答案,而不是同行撰写的答案。

这些成就表明,我们正在进入一个 AI 辅助研究的新时代,科学进步的瓶颈可能不再是我们处理现有知识的能力,而是我们提出正确问题的能力。

研究人员发布了所有内容——代码、模型、数据和工具——他们相信,开放性将比将他们的突破隐藏在封闭的门后更能加速进步。

在这样做的时候,他们回答了 AI 开发中最紧迫的问题之一:开源解决方案能否与大型科技公司的黑盒子竞争?

答案似乎隐藏在 4500 万篇论文中。

Share This Article
Email Copy Link Print
Previous Article Pickle 利用人工智能和计算机视觉来卸载各种物品。 腌黄瓜机器人获30套卸货系统订单及5000万美元融资
Next Article Anthropic 模型:优势与局限
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
钟南山:2025年6月底前新冠感染率将达高峰
报告
新势力卷王卖爆!零跑一季度销量大涨162% 营收破百亿
零跑汽车:2025年Q1销量87552台,同比增长162%
报告
乘联会:2025年4月国内乘用车零售175.5万辆,同比增长14.5%
报告
卡塔尔航空:2025财年利润21.5亿美元创纪录
报告

相关内容

Snowflake Intelligence 数据代理在行动
AI

雪片数据代理简化企业应用

2024年11月15日
AI

Cloudflare AI 识别网站恶意机器人

2024年10月18日
20250214225219535.jpg
AI

Xthings 发布边缘 AI 智能家居摄像头 Ulticam

2025年2月15日
20250128065317990.png
AI

开源AI巨头DeepSeek-V3横空出世,超越Llama和Qwen

2025年1月28日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?