AI 赋能:打造“静音泡泡”,让嘈杂环境中的对话清晰如常
我们都曾有过这样的经历:在餐厅与朋友聚餐,在鸡尾酒会上与有趣的人交谈,或是在办公室的喧嚣中开会,我们不得不大声喊叫才能盖过背景噪音。人类的耳朵和大脑并不擅长在嘈杂的环境中识别不同的声音来源,从而专注于特定的对话。随着人们寿命的延长,普遍的听力下降进一步削弱了这种能力,并可能导致社交孤立。
然而,华盛顿大学、微软和 Assembly AI 的研究团队最近证明,人工智能可以胜过人类,将声音来源隔离,创造一个“静音泡泡”。这个“静音泡泡”可以让半径 2 米内的用户进行对话,极大地减少了来自泡泡外其他说话者或噪音的干扰。
由华盛顿大学教授 Shyam Gollakota 带领的团队旨在将人工智能与硬件相结合,增强人类的能力。Gollakota 说,这与使用 ChatGPT 等大型计算资源不同;相反,挑战在于在硬件限制范围内,特别是针对移动或可穿戴设备,创建有用的 AI 应用。Gollakota 长期以来认为,所谓的“鸡尾酒会问题”是一个普遍存在的问题,这种方法可以实现并带来益处。
目前,市售的降噪耳机可以抑制背景噪音,但不能补偿声音来源的距离或封闭空间中的混响等其他问题。然而,之前的研究表明,神经网络在分离声音来源方面比传统信号处理方法更有效。基于这一发现,Gollakota 的团队设计了一个集成的硬件-AI “可穿戴”系统,该系统分析音频数据,以清晰地识别指定泡泡大小内外的声源。然后,该系统实时抑制无关声音,因此用户听到的声音与他们看到说话者时的声音之间没有明显的延迟。
该系统的音频部分是一个商用降噪耳机,配备多达 6 个麦克风,可以检测附近和更远的声音,为神经网络分析提供数据。定制的网络可以找到声音来源的距离,并确定哪些声音来源位于可编程的 1 米、1.5 米或 2 米泡泡半径内。这些网络使用模拟和真实世界数据进行训练,这些数据是在 22 个不同大小和吸音特性的房间中收集的,并使用了不同的人类受试者组合。该算法在小型嵌入式 CPU(Orange Pi 或 Raspberry Pi)上运行,并将处理后的数据以毫秒为单位发送回耳机,速度足够快,可以保持听觉和视觉同步。
听听开启和关闭降噪耳机时的对话差异。
Malek Itani 和 Tuochao Chen/Paul G. Allen School/华盛顿大学
该原型中的算法将空泡泡外的音量降低了 49 dB,降至泡泡内记录强度的约 0.001%。即使在新的声学环境中,使用不同的用户,该系统也能很好地工作,最多支持泡泡内两个说话者和泡泡外一个或两个干扰说话者,即使他们声音更大。它还可以适应泡泡内新说话者的到来。
不难想象,该系统可以在可定制的降噪设备中得到应用,尤其是在需要在嘈杂环境中进行清晰、轻松的口头交流的地方。社交孤立的危害众所周知,专门设计用于增强人际交流的技术可以提供帮助。Gollakota 认为,仅仅帮助人们集中注意力进行个人互动就很有价值。
“静音泡泡”技术最终也可以集成到助听器中。谷歌和瑞士助听器制造商 Phonak 分别在其耳塞和助听器中添加了 AI 元素。Gollakota 现在正在考虑如何将“静音泡泡”方法应用到舒适的可穿戴助听器形式中。为此,该设备必须适合耳塞或耳后配置,在左右单元之间进行无线通信,并能够在小型电池上全天运行。
Gollakota 对此充满信心。“我们正处于硬件和算法相结合以支持 AI 增强的时代,”他说。“这不是关于 AI 取代工作,而是关于通过人机界面对人们产生积极影响。”