AI医疗的承诺是客观与高效,但现实却可能是偏见的放大器。当算法继承了人类社会的历史不公,从美国的种族差异到中国的城乡鸿沟,它不仅无法治愈顽疾,反而可能开出“歧视性”的药方。这不只是技术问题,更是一场亟待解决的治理危机。
人工智能进入医疗领域时,曾被寄予厚望——用客观的数据和理性的计算,消除人类医生的主观偏见。但一个危险的现实正浮出水面:AI不仅没能成为“中立的审判官”,反而成了一面高精度的镜子,忠实地反映、甚至放大了人类社会根深蒂固的不平等。
这并非危言耸听。根据美国食品药品监督管理局(FDA)的数据,截至2024年,已有近900款AI医疗设备获批,其中超过四分之三集中在放射学和心脏病学领域。讽刺的是,这两个领域也正是算法偏见被记录得最详尽的地方。
问题出在哪里?答案是“数据的原罪”。
算法的偏见主要通过四个隐蔽的入口渗入系统:
被污染的训练数据:历史医疗数据本身就是社会不公的产物。如果某个群体因为系统性障碍(如收入、地域)而更少获得医疗服务,他们的“低就诊率”数据就会被算法错误地解读为“更健康”。
代表性不足的样本:当训练数据中缺少特定人群时,模型就无法识别他们的疾病特征。例如,黑色素瘤在深色皮肤上的表现与浅色皮肤不同,女性心脏病发作的症状也常与男性有别。算法只学习了“教科书”里的标准病人,却对真实世界的复杂性一无所知。
误导性的“代理变量”:这是最隐蔽的偏见来源。一个发表在《科学》杂志上的经典研究揭示,一个影响全美2亿人的健康管理算法,使用“医疗开销”作为“健康需求”的代理指标。由于非裔美国人历史上获得医疗服务的障碍更多,他们的医疗开销相对较低。算法因此判定他们“更健康”,导致大量真正需要高度护理的非裔患者被排除在项目之外。研究人员发现,一旦将代理变量从“开销”换成真正的“健康指标”,算法的种族偏见瞬间减少了84%。
未经检验的部署:为一个群体开发的模型,未经本地化验证就直接部署到另一个截然不同的群体身上。
偏见甚至固化在硬件里。小小的脉搏血氧仪,全球市场价值数十亿美元,其工作原理是通过光线穿透皮肤来测量血氧饱和度。但早在30多年前就有研究指出,皮肤中的黑色素会干扰光线传输,导致仪器对深肤色患者的血氧饱和度读数系统性高估。这意味着,当仪器显示“一切正常”时,病人可能已经处于危险的低氧血症中。这个问题被记录、被证实,却在长达三十多年的时间里被行业和监管机构选择性忽视。

海外的讨论大多聚焦于种族,但这套逻辑在中国市场同样适用,只是换了一副面孔。中国的“算法偏见”更多体现在以下几个维度:
城乡二元结构:绝大多数高质量的医疗AI训练数据,来自北京协和、上海瑞金等一线城市的顶级三甲医院。用这些数据训练出的肺结节识别模型,在面对城市白领的清晰CT影像时可能表现优异。但当它被部署到医疗资源匮乏的乡镇卫生院,面对因设备陈旧、操作不规范而产生的低质量影像时,性能可能会断崖式下跌。算法学会了“精英的病”,却看不懂“乡镇的苦”。
地域与方言差异:在智能问诊、语音病历等应用中,模型大多基于普通话进行训练。对于使用粤语、闽南语或其他方言的庞大用户群体,识别准确率会显著降低,这直接构成了新的“数字鸿沟”。
数据孤岛的加剧:中国的医疗数据分散在各大医院、体检机构以及阿里、腾讯等互联网巨头手中,互不联通。每个机构都基于自己“围墙花园”里的数据训练模型,这本身就是一种选择性偏见。一个在阿里健康数据上表现优异的模型,可能完全不适用于微信生态的用户画像。
海外市场用“医疗开销”作为代理变量踩了坑,中国也需要警惕类似的陷阱。例如,是否将“医保报销类型”或“就诊医院等级”作为隐藏的代理变量?这同样可能将特定人群标记为“低风险”或“低价值”,从而在资源分配中处于不利地位。
技术上的偏见之所以能大行其道,根源在于监管的缺位。一份针对FDA批准的近700款AI医疗设备的审查报告显示,只有3.6%的产品报告了验证数据的种族或族裔构成,99.1%没有提供社会经济数据。原因很简单:FDA只是“推荐”厂商进行公平性测试,而非“强制要求”。
当公平只是一个可选项时,它就必然会被成本和效率的压力所牺牲。
中国的AI医疗器械监管正在快速发展,国家药品监督管理局(NMPA)已经发布了多项指导原则。但目前的重点更多集中在技术的有效性和安全性上,对于算法的公平性、透明度和在不同人群中的性能差异,尚未形成明确、强制的评估标准。这片监管空白,为“偏见算法”的商业化部署留下了巨大的风险敞口。
一个广为流传的案例是美国电子病历巨头Epic的“脓毒症预测模型”。该模型被广泛部署于上百家医院,号称准确率高达83%。然而,密歇根大学的独立研究发现,它漏掉了67%的脓毒症患者,且高达88%的警报都是误报。在被外部研究揭穿前,这个不合格的“黑箱”算法已经影响了无数病人的诊疗决策。
我们不禁要问:在中国,有多少类似的“黑箱”正在医院里悄悄运行?
解决AI偏见,不能指望厂商的道德自觉,更不是一个单纯的技术修复问题。它需要系统性的制度设计。
强制性的“模型卡片”:监管机构应强制要求所有AI医疗产品提交一份公开的“模型卡片”,清晰说明其训练数据的人群分布、在不同亚群(如地域、年龄、性别)下的性能指标、已知的局限和失效模式。让透明成为标配,而非奢侈品。
将公平性与支付挂钩:这是最有效的杠杆。医保机构可以规定,只有那些能够证明其在不同人群中表现一致、不存在歧视性偏差的AI诊疗工具,才有资格获得医保支付。当商业利益与算法公平直接挂钩时,企业才有足够的动力投入资源解决问题。
建立本土化的验证数据库:针对中国的城乡和地域差异,应当由国家牵头,联合区域医疗中心,建立覆盖不同地区、不同层级医疗机构的“国家级AI医疗验证数据库”。任何AI产品想要进入市场,必须在这个“考场”上证明其对中国复杂医疗场景的普适性。
归根结底,我们不能期望一个在不完美社会中诞生的算法,能自动变得完美。如果我们不主动设计规则、划定红线、建立问责机制,那么AI医疗带来的可能不是普惠的未来,而是一个将不平等永久固化、并以技术之名使其显得无可指摘的“美丽新世界”。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断