订阅我们的每日和每周新闻通讯,获取最新的行业领先人工智能报道和独家内容。了解更多
磁共振成像 (MRI) 图像的复杂性和数据量之大,不言而喻。
正是由于这种复杂性,开发人员在训练用于 MRI 分析的大型语言模型 (LLM) 时,不得不将捕获的图像切分成二维。但这仅仅是对原始图像的近似,从而限制了模型分析复杂解剖结构的能力。这在涉及脑肿瘤、骨骼疾病或心血管疾病的复杂病例中带来了挑战。
然而,通用电气医疗保健似乎克服了这一巨大障碍,在今年的 AWS re:Invent 大会上推出了业界首个全身 3D MRI 基础模型 (FM)。这是模型首次能够使用整个身体的完整 3D 图像。
通用电气医疗保健的 FM 是从头开始在 AWS 上构建的——专门针对 MRI 等医学影像设计的模型非常少——它基于来自超过 19,000 项研究的 173,000 多张图像。开发人员表示,他们能够以比以前少五倍的计算量来训练模型。
通用电气医疗保健尚未将该基础模型商业化;它仍处于研究演进阶段。早期评估者麻省总医院布莱根妇女医院即将开始对其进行实验。
“我们的愿景是将这些模型交到医疗保健系统中技术团队手中,为他们提供强大的工具,以更快、更经济高效地开发研究和临床应用,”通用电气医疗保健首席人工智能官帕里·巴蒂亚告诉 VentureBeat。
虽然这是一项开创性的发展,但生成式人工智能和 LLM 并非该公司的全新领域。巴蒂亚解释说,该团队在过去 10 多年中一直在使用先进技术。
其旗舰产品之一是 AIR Recon DL,这是一种基于深度学习的重建算法,它使放射科医生能够更快地获得清晰的图像。该算法从原始图像中去除噪声并提高信噪比,将扫描时间缩短多达 50%。自 2020 年以来,已有 3400 万患者接受了 AIR Recon DL 扫描。
通用电气医疗保健于 2024 年初开始开发其 MRI FM。由于该模型是多模态的,因此它可以支持图像到文本的搜索、链接图像和文字,以及对疾病进行分割和分类。巴蒂亚表示,目标是让医疗保健专业人员在一次扫描中获得比以往更多的细节,从而实现更快、更准确的诊断和治疗。
“该模型具有显著的潜力,可以实现对 3D MRI 数据的实时分析,从而改善活检、放射治疗和机器人手术等医疗程序,”AWS 医疗保健和生命科学总经理丹·希兰告诉 VentureBeat。
该模型已经在包括前列腺癌和阿尔茨海默病分类在内的任务中优于其他公开可用的研究模型。在图像检索中,它在将 MRI 扫描与文本描述匹配方面的准确率高达 30%——这可能听起来并不那么令人印象深刻,但它比类似模型所表现出的 3% 的能力有了很大的提高。
“它已经发展到能够提供一些非常可靠的结果的阶段,”巴蒂亚说。“其影响是巨大的。”
巴蒂亚解释说,MRI 过程需要几种不同类型的数据集来支持各种映射人体的技术。
例如,被称为 T1 加权成像技术的技术突出显示脂肪组织并降低水的信号,而 T2 加权成像则增强水的信号。这两种方法是互补的,并创建了大脑的完整图像,以帮助临床医生检测肿瘤、外伤或癌症等异常情况。
“MRI 图像有各种形状和大小,就像你会有不同格式和大小的书籍一样,对吧?”巴蒂亚说。
为了克服不同数据集带来的挑战,开发人员引入了一种“调整大小和适应”策略,以便模型能够处理和响应不同的变化。此外,某些区域可能缺少数据——例如,图像可能不完整——因此他们教模型简单地忽略这些情况。
“我们没有让模型陷入困境,而是教它跳过空白并专注于可用的部分,”巴蒂亚说。“把它想象成用一些缺失的碎片来解决一个难题。”
开发人员还采用了半监督学生-教师学习,这在数据有限时特别有用。使用这种方法,两个不同的神经网络在标记数据和未标记数据上进行训练,教师创建标签来帮助学生学习和预测未来的标签。
“我们现在正在使用许多这些自监督技术,这些技术不需要大量数据或标签来训练大型模型,”巴蒂亚说。“它减少了依赖关系,让你可以从这些原始图像中学习比过去更多的知识。”
巴蒂亚解释说,这有助于确保模型在资源较少、机器较旧且数据集类型不同的医院中表现良好。
他还强调了模型多模态的重要性。“过去很多技术都是单模态的,”巴蒂亚说。“它只会查看图像,查看文本。但现在它们正在变得多模态,它们可以从图像到文本,从文本到图像,这样你就可以将过去使用单独模型完成的许多事情整合起来,真正统一工作流程。”
他强调,研究人员只使用他们有权使用的数据集;通用电气医疗保健有合作伙伴授权脱敏数据集,他们谨慎遵守合规标准和政策。
毫无疑问,在构建如此复杂的模型时,存在许多挑战——例如,用于大小为千兆字节的 3D 图像的计算能力有限。
“这是一个巨大的 3D 数据量,”巴蒂亚说。“你需要把它带入模型的内存中,这是一个非常复杂的问题。”
为了帮助克服这个问题,通用电气医疗保健在 Amazon SageMaker 上构建,Amazon SageMaker 提供跨多个 GPU 的高速网络和分布式训练功能,并利用 Nvidia A100 和张量核心 GPU 进行大规模训练。
“由于数据量和模型大小,它们无法将其发送到单个 GPU 中,”巴蒂亚解释说。SageMaker 允许他们自定义和扩展跨多个 GPU 的操作,这些 GPU 可以相互交互。
开发人员还在 Amazon S3 对象存储中使用了 Amazon FSx,这使得数据集的读写速度更快。
巴蒂亚指出,另一个挑战是成本优化;使用亚马逊的弹性计算云 (EC2),开发人员能够将未使用的或不常使用的数据移动到成本更低的存储层。
“利用 Sagemaker 训练这些大型模型——主要是为了在多个高性能 GPU 集群上进行高效的分布式训练——是真正帮助我们更快前进的关键组成部分之一,”巴蒂亚说。
他强调,所有组件都是从数据完整性和合规性的角度构建的,其中考虑了 HIPAA 和其他监管法规和框架。
最终,“这些技术可以真正简化流程,帮助我们更快地创新,并通过减少管理负担来提高整体运营效率,最终推动更好的患者护理——因为现在你正在提供更个性化的护理。”
虽然该模型目前特定于 MRI 领域,但研究人员看到了将其扩展到医学其他领域的巨大机会。
希兰指出,从历史上看,医学影像中的 AI 一直受到需要为特定器官中的特定疾病开发定制模型的限制,这需要对训练中使用的每张图像进行专家标注。
但这种方法由于疾病在不同个体之间表现方式的不同而“固有地有限”,并带来了泛化挑战。
“我们真正需要的是数千个这样的模型,以及在遇到新信息时快速创建新模型的能力,”他说。每个模型的高质量标记数据集也是必不可少的。
现在,使用生成式 AI,开发人员可以预先训练一个单一的基础模型,而不是为每个疾病/器官组合训练离散模型,该模型可以作为其他专门的微调模型的下游基础。
例如,通用电气医疗保健的模型可以扩展到放射治疗等领域,在放射治疗中,放射科医生花费大量时间手动标记可能存在风险的器官。巴蒂亚表示,它还可以帮助缩短 X 光和其他目前需要患者在机器中长时间静坐的程序的扫描时间。
希兰惊叹道:“我们不仅通过基于云的工具扩展了对医学影像数据的访问,而且还改变了这些数据如何被利用来推动医疗保健领域的人工智能进步。”