人工智能的“情感”:赋予科技以同理心
想象一下,在疫情肆虐的时期,你拥有一个由人工智能驱动的虚拟治疗师,它能够理解你的情绪,并逐渐了解你的心情和行为。这仅仅是人工智能能够识别和解读情绪,并为人类带来巨大益处的众多领域之一。
微软的人类理解与同理心小组致力于赋予科技以情感智能。为什么?因为拥有情感智能的人工智能能够更好地理解用户,更有效地与他们沟通,并改善他们与科技的互动。这项努力融合了心理学、神经科学、人机交互、语言学、电子工程和机器学习等领域的成果。
我们一直在思考如何改进像Alexa和Siri这样的AI语音助手,它们已经成为许多人日常生活中不可或缺的一部分。我们预计,它们很快将被部署到汽车、医院、商店、学校等更多场所,为人们提供更加个性化和有意义的科技体验。然而,要实现这一目标,这些语音助手需要从情感计算领域获得重大提升。情感计算这一概念由麻省理工学院教授罗莎琳德·W·皮卡德在1997年同名著作中提出,指的是能够感知、理解甚至模拟人类情绪的科技。
想象一下,一个情感智能的AI代理如何帮助一个感到压力过大的人。目前,最好的选择可能是去看一位人类心理学家,通过一系列昂贵的咨询,讨论情况并学习相关的压力管理技巧。在咨询过程中,治疗师会不断评估患者的反应,并利用这些信息来塑造咨询内容,调整内容和表达方式,以确保最佳效果。
虽然这种治疗方法可以说是现有的最佳治疗方法,而且科技距离复制这种体验还有很长的路要走,但它并不适合所有人。例如,有些人觉得与治疗师谈论自己的感受不舒服,有些人觉得这种过程有污名化或耗时。AI治疗师可以为他们提供另一种支持途径,同时进行更频繁和个性化的评估。最近的一篇综述文章发现,全球有10亿人受到精神和成瘾性疾病的影响,一个可扩展的解决方案,比如虚拟咨询师,将是一个巨大的福音。
有一些证据表明,人们在与机器交谈时,会感到更投入,也更愿意透露敏感信息。然而,其他研究发现,寻求情感支持的网民更喜欢来自人类的回复,而不是来自机器的回复,即使内容相同。显然,我们需要在这方面进行更多研究。
无论如何,AI治疗师都提供了一个关键优势:它始终可用。因此,它可以在突发危机时刻提供关键支持,或者利用人们想要进行更深入分析的时刻。它可以潜在地收集比人类治疗师通过零星的咨询所能收集到的更多关于个人行为的信息,并且可以提供提醒,帮助个人保持正轨。随着疫情的大流行极大地促进了远程医疗方法的采用,人们很快就会发现,从电脑或手机屏幕上的代理那里获得指导是件很正常的事情。
然而,要使这种虚拟治疗师有效,它需要具备显著的情感智能。它需要感知和理解用户的偏好以及不断变化的情绪状态,以便优化其沟通方式。理想情况下,它还应该模拟某些情绪反应,以促进同理心,更好地激励个人。
虚拟治疗师并非新发明。最早的例子出现在20世纪60年代,当时麻省理工学院的约瑟夫·魏泽鲍姆为他的ELIZA自然语言处理程序编写了脚本,该程序通常将用户的词语重复回给他们,以一种极其简化的方式模拟心理治疗。2000年代,南加州大学创意科技研究所进行了一项更严肃的尝试,他们开发了SimSensei,一个最初旨在为军人提供咨询的虚拟人。如今,最著名的例子可能是Woebot,一个免费的聊天机器人,它提供基于认知行为疗法的对话。但要看到真正理解人类情感复杂性的AI系统,我们还有很长的路要走。
我们小组正在进行基础工作,这将导致这种复杂机器的出现。我们还在探索,如果我们构建以类似人类情感为动力的AI系统,会发生什么。我们认为,这种转变将把现代AI已经令人印象深刻的能力提升到一个新的水平。
仅仅十年前,情感计算需要定制的硬件和软件,而这反过来又需要拥有高级技术学位的人员来操作。这些早期系统通常涉及笨拙的大型传感器和繁琐的电线,这些很容易影响佩戴者的情感体验。
如今,高质量的传感器体积小巧,无线连接,能够在不引人注目的情况下估计一个人的情绪状态。我们还可以使用手机和可穿戴设备,在现实生活中研究人类的内在体验,因为情绪在现实生活中至关重要。而且,与过去在实验室中对一小群人进行的短暂实验不同,我们现在可以随着时间的推移研究情绪,并从“野外”的大量人群中收集数据。
早期的情感计算研究通常使用单个参数来测量情绪反应,比如心率或语调,并且是在人为设计的实验室环境中进行的。得益于人工智能的重大进步,包括自动语音识别、场景和物体识别以及面部和身体跟踪,研究人员现在可以做得更好。通过结合语言、视觉和生理线索,我们可以更好地捕捉到暗示特定情绪状态的细微差别。
我们还在借鉴新的心理模型,这些模型更好地解释了人们如何以及为什么表达他们的情绪。例如,心理学家批评了普遍认为某些面部表情总是代表某些情绪的观点,他们认为,微笑和皱眉等表情的含义会根据情境而有很大差异,也反映了个体和文化的差异。随着这些模型的不断发展,情感计算也必须随之发展。
这项技术引发了一系列社会问题。首先,我们必须考虑收集和分析人们的视觉、语言和生理信号的隐私问题。减轻隐私问题的一种策略是减少需要离开传感设备的数据量,从而使通过这些数据识别个人变得更加困难。我们还必须确保用户始终知道他们是在与AI交谈还是与人类交谈。此外,用户应该清楚地了解他们的数据是如何被使用的,以及如何选择退出或在可能包含情绪感知代理的公共场所保持不被观察。
随着这些代理变得更加逼真,我们还必须应对“恐怖谷”现象,即人们发现,有些像真人的AI实体比更明显的人造生物更令人毛骨悚然。但在我们遇到所有这些部署挑战之前,我们必须使这项技术发挥作用。
作为迈向能够支持人们的心理健康和福祉的AI系统的第一步,我们创建了Emma,一个具有情感感知能力的手机应用程序。在2019年的一项实验中,Emma在一天中的随机时间询问用户他们的感受。其中一半的用户随后收到了Emma的同理心回复,这些回复是根据他们的情绪状态量身定制的,而另一半的用户收到了中性的回复。结果是:那些与同理心机器人互动更频繁的参与者报告了积极的情绪。
在对同一组参与者进行的第二项实验中,我们测试了我们是否可以从基本的手机数据中推断出人们的情绪,以及是否建议适当的健康活动会提升那些感到沮丧的人的情绪。仅仅使用位置(这让我们知道了用户离家或工作地点的距离)、时间和星期几,我们就能可靠地预测用户的情绪在一个简单的情绪象限模型中的位置。
根据用户是快乐、平静、激动还是悲伤,Emma会以适当的语气做出回应,并推荐一些简单的活动,比如深呼吸或与朋友交谈。我们发现,收到Emma同理心敦促的用户更有可能采取建议的行动,并且报告的幸福感比收到中性机器人相同建议的用户更高。
我们还从手机中收集了其他数据:手机内置的加速度计为我们提供了用户运动的信息,而来自电话、短信和日历事件的元数据告诉我们社交联系的频率和持续时间。一些技术困难阻止了我们使用这些数据来预测情绪,但我们预计,包含这些信息只会使评估更加准确。
在另一个研究领域,我们试图帮助信息工作者减轻压力,提高工作效率。我们开发了许多版本的生产力支持工具,最新的是我们对“专注代理”的研究。这些助手在用户的日历中安排时间,让他们专注于重要的任务。然后,他们监控用户对计划的遵守情况,在出现干扰时进行干预,在适当的时候提醒他们休息,并帮助他们反思他们每天的情绪和目标。这些代理访问用户的日历,并观察他们的电脑活动,以查看他们是否正在使用Word等应用程序来提高工作效率,或者是否正在漫游到社交媒体网站上。
为了查看情感智能是否会改善用户体验,我们创建了一个专注代理,它以友好的化身形式出现在屏幕上。这个代理使用面部表情分析来估计用户的感情,并依靠AI驱动的对话模型以适当的语气做出回应。
我们将这个化身代理的影响与无情感的文本代理的影响以及现有的微软工具的影响进行了比较,该工具只是允许用户安排专注工作的时间。我们发现,两种代理都帮助信息工作者保持专注,并且人们在使用与生产力相关的应用程序的时间比例比使用标准调度工具的同事更高。总的来说,用户报告说,他们对基于化身的代理感到最有效率和满意。
我们的代理擅长预测一部分情绪,但仍然需要做一些工作来识别更细微的情绪状态,比如专注、无聊、压力和任务疲劳。我们还在改进互动的时机,以便它们被视为有帮助的,而不是令人恼火的。
我们发现,人们对我们富有同理心、有实体的化身的反应是两极分化的。一些用户感到与化身的互动让他们感到安慰,而另一些用户则发现化身分散了他们的注意力。人们对这种代理应该如何表现表达了广泛的偏好。虽然理论上我们可以设计许多不同类型的代理来满足许多不同的用户,但这将是一种低效的扩展方式。最好创建一个能够适应用户沟通偏好的单一代理,就像人类在互动中所做的那样。
例如,许多人本能地模仿他们正在交谈的人的对话风格;这种“语言模仿”已被证明可以增强同理心、融洽关系和亲社会行为。我们开发了第一个能够执行相同技巧的AI代理,它模仿其对话伙伴的说话习惯,包括音调、音量、语速、词语选择和语句长度。我们可以想象将这种风格匹配整合到专注代理中,以创建更自然的对话。
我们一直在与微软的产品团队讨论我们的研究成果。我们还不知道我们的哪些努力将在未来五年内出现在办公室工作人员的软件中,但我们相信,未来的微软产品将包含情感智能的AI。
能够预测和响应人类情绪的AI系统是一回事,但如果AI系统能够真正体验类似人类的情绪,会怎么样?如果一个代理受到恐惧、好奇或喜悦的驱使,这将如何改变技术及其能力?为了探索这个想法,我们训练了具有恐惧和快乐好奇等基本情绪驱动的代理。
通过这项工作,我们试图解决AI领域中称为强化学习的一些问题,在强化学习中,AI代理通过不懈的试错来学习如何完成一项任务。经过数百万次的尝试,代理会找出最佳的动作和策略,如果它成功地完成了任务,它就会获得奖励。强化学习已被用于训练AI代理在围棋、星际争霸II和德州扑克等游戏中战胜人类。
虽然这种类型的机器学习在游戏中效果很好,因为获胜提供了明确的奖励,但在现实世界中应用起来却比较困难。例如,考虑训练自动驾驶汽车的挑战。如果奖励是安全到达目的地,那么AI将花费大量时间撞到东西,因为它会尝试不同的策略,并且只有很少的机会成功。这就是稀疏外部奖励的问题。AI可能还需要一段时间才能弄清楚哪些特定动作是最重要的——是停车等红灯还是在空旷的街道上加速?因为奖励只在漫长的动作序列结束时才会出现,所以研究人员称之为信用分配问题。
现在想想人类在开车时的行为。安全到达目的地仍然是目标,但人们在途中会得到很多反馈。在压力很大的情况下,比如在暴雨中高速行驶,人们可能会感到心跳加速,因为肾上腺素和皮质醇在体内循环。这些变化是人们的战斗或逃跑反应的一部分,它会影响决策。司机不必真的撞到东西才能感觉到安全操作和冒险操作之间的区别。当他驶出高速公路,脉搏减慢时,事件和反应之间存在明显的相关性。
我们想要捕捉这些相关性,并创建一个在某种程度上体验恐惧的AI代理。因此,我们要求人们在模拟环境中驾驶汽车穿过迷宫,测量他们在平静和压力时刻的生理反应,然后使用这些数据来训练AI驾驶代理。我们对代理进行了编程,使其在探索迷宫的很大一部分时获得外部奖励,以及在最大限度地减少与危险情况相关的情绪状态时获得内部奖励。
我们发现,将这两种奖励结合起来,创建的代理学习速度比只获得典型外部奖励的代理快得多。这些代理也撞车的次数更少。然而,我们发现特别有趣的是,一个主要由内部奖励驱动的代理表现不佳:如果我们降低外部奖励,代理就会变得非常厌恶风险,以至于它没有尽力完成目标。
在另一项将内在动机融入AI代理的努力中,我们思考了人类的好奇心,以及人们为什么会被探索所驱使,因为他们认为他们可能会发现让自己感觉良好的东西。在相关的AI研究中,其他小组已经捕捉到了类似于基本好奇心的东西,他们奖励代理在探索模拟环境时寻求新奇。但我们想要创建一个更挑剔的代理,它不仅寻求新奇,而且寻求可能让它“快乐”的新奇。
为了收集这种代理的训练数据,我们要求人们驾驶虚拟汽车在模拟的街道迷宫中行驶,告诉他们去探索,但没有给他们其他目标。当他们开车时,我们使用面部表情分析来跟踪他们在成功地穿过棘手的部分或意外地找到迷宫出口时脸上闪过的微笑。我们使用这些数据作为内在奖励函数的基础,这意味着代理被教导要最大限度地提高会让人类微笑的情况。代理通过尽可能多地覆盖领土来获得外部奖励。
同样,我们发现,包含内在驱动的代理比通常训练的代理表现更好——它们在撞到墙壁之前在迷宫中行驶的时间更长,并且探索的领土更多。我们还发现,这些代理在相关的视觉处理任务中表现更好,比如估计3D图像中的深度和将场景分割成组成部分。
我们正处于在硅片中模仿人类情绪的起步阶段,毫无疑问,关于机器能够模仿与快乐或恐惧相关的情绪状态意味着什么,将会出现哲学上的争论。但我们认为,这些方法不仅可以使学习更有效率,而且还可以赋予AI系统泛化的关键能力。
如今的AI系统通常被训练来执行一项单一任务,它们可能在这项任务上变得非常出色,但它们无法将自己辛苦获得的技能转移到任何其他领域。但人类每天都使用他们的情绪来帮助他们应对新情况;这就是人们在谈论使用直觉时所指的意思。
我们希望赋予AI系统类似的能力。如果AI系统受到类似人类情绪的驱使,它们是否会更接近人类的智能?也许模拟的情绪可以激励AI系统实现比它们原本所能实现的更多目标。我们当然很好奇要探索这个问题——部分原因是我们知道我们的发现会让我们微笑。