人工智能能否取代高质量的科学文献综述?
科学文献综述是推动研究领域发展的重要环节,它们通过对现有研究的全面分析,呈现出当前研究的现状,并指出未来研究可能关注的知识空白。然而,撰写一篇高质量的综述文章并非易事。
研究人员通常需要阅读大量的学术作品,他们必须选择不过时的研究,同时避免过度依赖最新研究。接下来,他们需要进行密集的工作,评估研究的质量,从合格的研究中提取相关数据,分析数据以获得见解,并撰写一篇连贯的叙述,总结过去并展望未来。研究综合本身就是一个研究领域,即使是优秀的科学家也可能写不出优秀的文献综述。
人工智能的出现为我们带来了希望。正如在许多行业中一样,一批初创公司应运而生,利用人工智能来加速、简化和彻底改变科学文献综述流程。许多这些初创公司将自己定位为以学术研究为中心的 AI 搜索引擎,每个公司都拥有不同的产品功能和目标受众。
Elicit 邀请搜索者“以超人的速度分析研究论文”,并强调其在 Google、NASA 和世界银行等机构的专家研究人员中的应用。Scite 声称已建立了最大的引文数据库,通过持续监控 2 亿份学术来源,并提供“智能引文”,将结论分类为支持或对比证据。Consensus 的主页演示似乎旨在帮助外行人更深入地理解某个问题,将该产品解释为“Google Scholar 与 ChatGPT 的结合”,并提供一个总结主要结论的共识计量器。这些只是众多例子中的几个。
但人工智能能否取代高质量、系统的科学文献综述呢?
研究综合专家倾向于认为,这些 AI 模型目前在执行定性分析方面非常出色,换句话说,就是创建科学文献的叙述性摘要。它们在更复杂的定量层面上表现不佳,而定量层正是使综述真正系统化的关键。这种定量综合通常涉及统计方法,例如荟萃分析,它分析多个研究中的数值数据以得出更可靠的结论。
“AI 模型在总结关键要点和撰写流畅的论点方面几乎可以达到与人类相同的水平,”美国研究机构 (AIR) 综合与合成方法中心 (MOSAIC) 的联合创始人 Joshua Polanin 说。“但在定量综合方面,我们甚至还没有达到 20% 的水平,”他说。“真正的荟萃分析遵循严格的流程来搜索研究并量化结果。这些数字是基于证据的结论的基础。AI 离做到这一点还很远。”
量化带来的麻烦
Polanin 解释说,即使对于训练有素的专家来说,量化过程也可能具有挑战性。人类和 AI 通常都能阅读研究并总结结论:研究 A 发现了某种效应,而研究 B 没有发现这种效应。棘手的部分是为效应的程度赋予数值。更重要的是,通常有多种方法可以衡量效应,研究人员必须识别与研究问题前提相符的研究和测量设计。
Polanin 说,模型首先必须识别和提取相关数据,然后它们必须对如何比较和分析数据做出细致的判断。“即使作为人类专家,尽管我们试图提前做出决定,但你最终可能不得不改变主意,”他说。“这不是计算机擅长的。”
鉴于围绕 AI 和初创公司文化中存在的傲慢,人们可能会期望构建这些 AI 模型的公司对 Polanin 的评估提出异议。但你不会从 Consensus 的联合创始人 Eric Olson 那里得到任何反驳:“说实话,我完全同意,”他说。
正如 Polanin 所指出的那样,Consensus 故意“比其他一些工具更高级,为人们提供基础知识,以便快速获得见解,”Olson 补充道。他认为典型的用户是研究生:拥有中等知识基础,正在努力成为专家的学生。Consensus 可以成为真正学科专家的众多工具之一,也可以帮助非科学家了解最新信息,例如 Consensus 在欧洲的一位用户,他一直关注着他孩子罕见遗传疾病的研究。“他作为非研究人员在 Google Scholar 上花费了数百个小时。他告诉我们,他梦想着这样的东西已经 10 年了,它改变了他的生活——现在他每天都在使用它,”Olson 说。
在 Elicit,团队的目标是另一种类型的理想客户:“在研发环境中工作的行业人士,也许是在生物医药公司,试图决定是否继续开发新的医疗干预措施,”工程主管 James Brady 说。
考虑到这种高风险用户,Elicit 清楚地向用户展示了因果关系的声明及其支持的证据。该工具将文献综述的复杂任务分解成人类可以理解的易于管理的部分,并且它也比普通聊天机器人提供更高的透明度:研究人员可以看到 AI 模型是如何得出答案的,并且可以根据来源进行检查。
科学综述工具的未来
Brady 同意,目前的 AI 模型没有提供完整的 Cochrane 式系统综述,但他表示这不是一个根本的技术限制。相反,这是一个关于 AI 未来发展和更好的提示工程的问题。“我认为原则上,人类大脑可以做的事情,计算机也可以做到,”Brady 说。“这同样适用于系统综述过程。”
弗吉尼亚大学教授 Roman Lukyanenko 专注于研究方法,他同意未来主要关注点应该是开发方法来支持初始提示过程,以获得更好的答案。他还指出,目前的模型倾向于优先考虑可以免费访问的期刊文章,但大量高质量的研究存在于付费墙后面。尽管如此,他对未来仍然持乐观态度。
“我认为 AI 在这个领域是巨大的——在许多层面上都是革命性的,”Lukyanenko 说,他与 Gerit Wagner 和 Guy Paré 共同撰写了一篇关于 AI 和文献综述的 2022 年 ChatGPT 前研究,该研究在网上广为流传。“我们拥有大量的信息,但我们的人类生物学限制了我们对这些信息的处理能力。这些工具代表着巨大的潜力。”
他说,科学的进步通常来自跨学科的方法,而这正是 AI 的潜力可能最大的地方。“我们有‘文艺复兴人’这个词,我喜欢想象‘文艺复兴 AI’:能够访问我们大部分知识并建立联系的东西,”Lukyanenko 说。“我们应该努力推动它在不同领域之间进行偶然的、意想不到的、遥远的发现。”