本文最初发表于我们的 AI 周报《算法》。如需在邮箱中优先获取此类文章,请在此处订阅。
人工智能能否胜任病理学家?
在人体内部寻找和诊断癌症,本质上是寻找模式。放射科医生利用 X 光和磁共振成像来照亮肿瘤,而病理学家则在显微镜下检查来自肾脏、肝脏和其他部位的组织,寻找模式来判断癌症的严重程度、特定治疗方法是否有效以及恶性肿瘤可能扩散的部位。
理论上,人工智能应该非常擅长帮助病理学家。梅奥诊所数字病理平台的病理学家兼医疗主管安德鲁·诺根说:“我们的工作就是模式识别。我们观察切片,收集已被证明重要的信息。”
自第一个图像识别模型在近 15 年前开始兴起以来,人工智能在视觉分析方面已经取得了长足进步。尽管没有一个模型是完美的,但我们可以想象,有一天,一个强大的算法能够发现人类病理学家遗漏的东西,或者至少能够加快诊断过程。我们开始看到许多新的努力来构建这样的模型——仅在过去一年中就有至少七次尝试——但它们都还处于实验阶段。要使它们在现实世界中得到应用,还需要哪些条件?
本月早些时候,人工智能医疗公司 Aignostics 与梅奥诊所合作,在 arXiv 上发表了关于最新构建此类模型的努力的论文。该论文尚未经过同行评审,但它揭示了将此类工具引入真实临床环境所面临的挑战。
名为 Atlas 的模型接受了来自 49 万例病例的 120 万个组织样本的训练。其准确性通过与其他六个领先的 AI 病理模型进行对比测试。这些模型在共享测试中进行竞争,例如对乳腺癌图像进行分类或对肿瘤进行分级,模型的预测结果与人类病理学家给出的正确答案进行比较。Atlas 在九项测试中的六项中击败了竞争对手。它在对癌性结直肠组织进行分类方面获得了最高得分,与人类病理学家得出一致结论的比例为 97.1%。然而,在另一项任务中——对前列腺癌活检的肿瘤进行分类——Atlas 以 70.5% 的得分超过了其他模型的高分。它在九个基准测试中的平均得分表明,它与人类专家的答案一致的比例为 84.6%。
让我们思考一下这意味着什么。了解组织中癌细胞发生情况的最佳方法是让病理学家检查样本,因此 AI 模型的性能就是以此为标准进行衡量的。最好的模型在特定检测任务中正在接近人类,但在许多其他任务中却落后。那么,一个模型要达到什么程度才能在临床上发挥作用呢?
普罗维登斯基因组公司首席医疗官兼 GigaPath(在梅奥诊所研究中被考察的另一个 AI 病理模型)的联合创始人卡洛·比福尔科说:“90% 可能还不够好。你需要做得更好。”但比福尔科说,得分不完美的 AI 模型在短期内仍然有用,并且有可能帮助病理学家加快工作速度,更快地做出诊断。
哪些障碍阻碍了更好的性能?第一个问题是训练数据。
诺根说:“美国不到 10% 的病理学实践实现了数字化。”这意味着组织样本被放置在载玻片上,在显微镜下进行分析,然后存储在巨大的登记簿中,而从未被数字化记录。虽然欧洲的实践往往更数字化,并且正在努力创建共享的组织样本数据集供 AI 模型进行训练,但仍然没有太多可用的数据。
如果没有多样化的数据集,AI 模型难以识别人类病理学家已经学会解释的各种异常情况。Aignostics 的联合创始人兼首席技术官马克西米利安·阿尔伯说,这包括罕见疾病。他说,在公开可用的组织样本数据库中搜索特别罕见的疾病,“你会发现 10 年内只有 20 个样本。”
大约在 2022 年,梅奥诊所预见到这种训练数据不足将是一个问题。它决定从现在开始将其所有病理学实践数字化,以及来自其档案库中可以追溯到几十年前的 1200 万张载玻片(患者同意将其用于研究)。它雇佣了一家公司来建造一台机器人,开始对组织进行高分辨率拍照,每月处理多达 100 万个样本。通过这些努力,该团队能够收集到用于训练梅奥模型的 120 万个高质量样本。
这让我们看到了使用 AI 识别癌症的第二个问题。活检组织样本非常小——通常只有几毫米直径——但被放大到如此程度,以至于它们的数字图像包含超过 140 亿个像素。这使得它们比迄今为止用于训练最佳 AI 图像识别模型的图像大 287,000 倍。
微软 AI 研究员何凤平说:“这显然意味着大量的存储成本等等。”他与比福尔科合作创建了 GigaPath,该模型于去年发表在《自然》杂志上。但它也迫使人们做出重要的决定,即使用图像的哪些部分来训练 AI 模型,以及在过程中可能会遗漏哪些细胞。为了创建 Atlas,梅奥诊所使用了所谓的“拼贴”方法,本质上是从同一个样本中创建了许多快照,然后输入到 AI 模型中。如何选择这些拼贴既是艺术又是科学,目前尚不清楚哪些方法能够带来最佳结果。
第三,还有一个问题是,哪些基准测试对于癌症识别 AI 模型的性能至关重要。Atlas 研究人员在具有挑战性的分子相关基准测试领域对他们的模型进行了测试,这涉及尝试从样本组织图像中寻找线索来猜测分子水平上发生了什么。以下是一个例子:你的身体的错配修复基因对于癌症来说尤其令人担忧,因为它们会捕获 DNA 复制过程中发生的错误。如果这些错误没有被捕获,它们会导致癌症的发生和发展。
诺根说:“一些病理学家可能会告诉你,当他们认为某些东西存在错配修复缺陷时,他们会有一种感觉,这种感觉是基于它的外观。”但病理学家不会仅仅依靠这种直觉。他们可以进行分子测试以获得更确定的答案。诺根说,如果我们可以使用 AI 来预测分子水平上发生了什么,那该怎么办?这是一个实验:AI 模型能否发现人类无法看到的潜在分子变化?
事实证明,通常情况下,答案是否定的。或者至少现在还没有。Atlas 在分子测试中的平均得分是 44.9%。这是迄今为止 AI 的最佳表现,但它表明这种类型的测试还有很长的路要走。
比福尔科说,Atlas 代表着渐进但真实的进步。他说:“不幸的是,我的感觉是,每个人都停留在类似的水平。我们需要在模型方面有所不同才能取得显著进展,我们需要更大的数据集。”
现在阅读《算法》的其余部分
深度学习
OpenAI 已经创建了一个用于长寿科学的 AI 模型
人工智能长期以来一直在蛋白质折叠科学中发挥作用。但 OpenAI 现在表示,它已经创建了一个可以设计蛋白质的模型,将普通细胞转化为干细胞。这一目标一直是长寿科学公司追求的目标,因为干细胞可以产生身体中的任何其他组织,理论上可以作为恢复动物活力、构建人体器官或提供替代细胞供应的起点。
重要意义:这项工作是 OpenAI 与长寿公司 Retro Labs 合作的成果,Sam Altman 在该公司投资了 1.8 亿美元。它代表了 OpenAI 首个专注于生物数据的模型,也是其首次公开声称其模型可以提供科学成果。据报道,该 AI 模型设计出了比该公司科学家更有效、更快的蛋白质。但在研究发表之前,外部科学家无法评估这些说法。阅读安东尼奥·雷加拉多的更多内容。
比特与字节
我们对 TikTok 禁令了解多少
这个流行的视频应用程序在周六晚间在美国消失,然后在周日中午左右恢复,尽管一项禁止该应用程序的法律已经生效。(纽约时报)
为什么 Meta 可能不会像 X 一样
随着埃隆·马斯克改变了该平台的政策,X 损失了大量的广告收入。但 Facebook 和 Instagram 的规模庞大,使它们成为广告商难以回避的平台。(华尔街日报)
2025 年对 Neuralink 的期望
埃隆·马斯克的大脑植入物将有更多志愿者接受,但不要指望很快出现产品。(麻省理工学院科技评论)
Meta 的前事实核查机构签署了一项新协议,帮助训练 AI 模型
多年来,Meta 向法新社等媒体机构支付费用,让他们在其平台上进行事实核查。自从 Meta 宣布将关闭这些项目以来,欧洲领先的 AI 公司 Mistral 与法新社签署了一项协议,在其 AI 模型中使用部分内容。(金融时报)
OpenAI 的 AI 推理模型有时会用中文“思考”,没有人真正知道为什么
在给出答案时,该模型经常切换到中文,这可能是许多数据标注人员位于中国的一个反映。(Tech Crunch)