算法的迷思:谁在为决策负责?
当我们谈论决策系统时,常常会将其冠以“算法”之名,这似乎成为了逃避责任的借口。许多人认为,“算法”意味着基于客观证据或数据的规则集,暗示着一种高度复杂、难以理解的系统,甚至难以预测其行为。然而,这种描述真的准确吗?
以斯坦福医学院的 COVID-19 疫苗分配为例,该院将疫苗分配不均归咎于一个“算法”,该算法优先考虑高层管理人员,而不是一线医护人员。医院声称在设计这个“非常复杂的算法”时咨询了伦理学家,但一位代表承认“显然没有正常运作”。尽管许多人将“算法”理解为人工智能或机器学习,但实际上,该系统只是一个医疗算法,其功能与简单的公式或决策树类似,是由人类委员会设计的。
这种脱节反映了一个日益严重的问题。随着预测模型的普及,公众对它们在关键决策中的应用越来越警惕。然而,当政策制定者开始制定评估和审计算法的标准时,他们首先需要定义其政策适用的决策或决策支持工具类别。如果将“算法”一词的解释权留给公众,一些影响最大的模型可能会不受政策约束,而这些政策旨在确保此类系统不会伤害人们。
如何识别算法?
那么,斯坦福的“算法”算不算算法呢?这取决于你如何定义“算法”。虽然没有普遍接受的定义,但计算机科学家 Harold Stone 在 1971 年的一本教科书中给出了一个常见的定义:“算法是一组精确定义操作序列的规则。”这个定义涵盖了从食谱到复杂神经网络的一切:基于此定义的审计政策将过于宽泛。
在统计学和机器学习领域,我们通常将算法视为计算机执行的一组指令,用于从数据中学习。在这些领域,由此产生的结构化信息通常被称为模型。计算机通过算法从数据中学习的信息可能看起来像“权重”,用于乘以每个输入因子,或者可能更加复杂。算法本身的复杂性也可能有所不同。这些算法的影响最终取决于它们应用的数据以及由此产生的模型部署的上下文。同一个算法在一种情况下可能产生积极影响,而在另一种情况下可能产生截然不同的效果。
在其他领域,上面提到的模型本身也被称为算法。虽然这令人困惑,但在最广泛的定义下,这也是准确的:模型是规则(由计算机的训练算法学习,而不是由人类直接陈述),定义了一系列操作。例如,去年在英国,媒体报道了一个“算法”未能为无法参加考试的学生分配公平分数,因为疫情导致考试无法进行。毫无疑问,这些报道讨论的是模型——将输入(学生的过去表现或老师的评价)转换为输出(分数)的一组指令。
斯坦福的情况似乎是,人类——包括伦理学家——坐下来决定系统应该使用哪些操作序列,根据输入(例如员工的年龄和部门)来确定该员工是否应该优先接种疫苗。据我们所知,这个序列不是基于优化某个定量目标的估计程序。它是一组关于如何优先考虑疫苗的规范性决策,以算法的形式形式化。这种方法符合医学术语和广义定义下的算法,即使其中唯一涉及的智能是人类的智能。
关注影响,而非输入
立法者也在权衡“算法”的定义。2019 年在美国国会提出的 HR2291 法案,即《算法问责法》,使用了“自动化决策系统”一词,将其定义为“一个计算过程,包括从机器学习、统计学或其他数据处理或人工智能技术中衍生出的过程,做出决策或促进人类决策,并影响消费者。”
同样,纽约市正在考虑 Int 1894 法案,该法案将引入对“自动化就业决策工具”的强制性审计,将其定义为“任何功能受统计理论支配的系统,或参数由此类系统定义的系统”。值得注意的是,这两项法案都要求进行审计,但只对审计的内容提供了高级别的指导。
随着政府和行业中的决策者制定算法审计标准,关于什么算作算法的争论可能会持续存在。我们建议不要试图就“算法”的共同定义或特定的通用审计技术达成一致,而是主要根据其影响来评估自动化系统。通过关注结果而不是输入,我们可以避免对技术复杂性的无谓争论。重要的是潜在的危害,无论我们讨论的是代数公式还是深度神经网络。
影响是其他领域中的一个关键评估因素。它被内置到网络安全领域的经典 DREAD 框架中,该框架最初由微软在 21 世纪初推广,至今仍在一些公司使用。DREAD 中的“A”要求威胁评估人员通过询问有多少人会受到已识别漏洞的影响来量化“受影响的用户”。影响评估在人权和可持续性分析中也很常见,我们已经看到一些早期的人工智能影响评估开发者创建了类似的评分标准。例如,加拿大的算法影响评估根据诸如“此业务线的客户是否特别脆弱?(是或否)”等定性问题提供分数。
重要的是潜在的危害,无论我们讨论的是代数公式还是深度神经网络。
毫无疑问,将“影响”等定义模糊的术语引入任何评估都会带来困难。DREAD 框架后来被 STRIDE 补充或取代,部分原因是难以协调对威胁建模的不同看法。微软在 2008 年停止使用 DREAD。
在人工智能领域,会议和期刊已经引入了影响声明,取得了不同程度的成功和争议。这远非万无一失:纯粹公式化的影响评估很容易被操纵,而过于模糊的定义会导致任意或过长的评估。
尽管如此,这是一个重要的进步。“算法”一词,无论如何定义,都不应该成为为设计和部署任何系统的人免除其使用后果责任的盾牌。这就是为什么公众越来越要求算法问责制——而影响的概念为不同群体提供了一个有用的共同基础,以满足这种需求。
Kristian Lum 是宾夕法尼亚大学计算机与信息科学系的助理研究教授。
Rumman Chowdhury 是 Twitter 机器伦理、透明度和问责制 (META) 团队的负责人。她曾担任算法审计平台 Parity 的首席执行官兼创始人,以及埃森哲的全球负责任人工智能负责人。