降噪耳机利用人工智能让单个声音通过

降噪耳机利用人工智能让单个声音通过

它们可以帮助佩戴者在嘈杂的环境中专注于特定的声音,例如在人群中听到朋友的声音或在城市喧嚣中的导游的声音。

现代生活很吵闹。如果你不喜欢,降噪耳机可以减少你周围环境的声音。但它们会不加区分地消除声音,所以你很容易错过你真正想听到的东西。

针对此类耳机的新型原型 AI 系统旨在解决这一问题。该系统名为“目标语音听力”,它让用户能够选择一个即使在所有其他声音被消除的情况下仍能听见的人。

尽管该技术目前仍处于概念验证阶段,但其创造者表示,他们正在商谈将其嵌入流行品牌的降噪耳机中,同时也在努力使其适用于助听器。

参与该项目的华盛顿大学教授 Shyam Gollakota 表示:“倾听特定人群的声音是我们与他人交流和互动的一个基本方面。但即使你没有任何听力损失问题,在嘈杂的环境中专注于特定人群也是一件非常有挑战性的事情。” 

此前,这些研究人员曾成功训练神经网络识别和过滤某些声音,如婴儿哭声、鸟鸣声或闹钟声。但分离人声是一项更艰巨的挑战,需要更复杂的神经网络。

当 AI 模型需要在计算能力和电池寿命有限的耳机中实时工作时,这种复杂性就会成为一个问题。为了满足这些限制,神经网络需要小巧且节能。因此,该团队使用了一种称为知识蒸馏的 AI 压缩技术。这意味着采用一个经过数百万种声音训练的大型 AI 模型(“老师”),并让它训练一个更小的模型(“学生”),以模仿其行为和表现达到相同的标准。   

然后,学生们被教导从通过连接到市售降噪耳机的麦克风捕捉的周围噪音中提取特定声音的声音模式。

要激活目标语音听力系统,佩戴者需要按住耳机上的按钮几秒钟,同时面向要关注的人。在此“注册”过程中,系统会从两个耳机中捕获音频样本,并使用此录音提取说话者的声音特征,即使附近有其他说话者和噪音。

这些特征被输入到第二个神经网络中,该神经网络运行在通过 USB 电缆连接到耳机的微控制器计算机上。该网络持续运行,将选定的声音与其他人的声音区分开,并将其播放给听众。一旦系统锁定了扬声器,它就会继续优先考虑该人的声音,即使佩戴者转过身去。系统通过关注说话者的声音获得的训练数据越多,其隔离能力就越强。 

目前,该系统只能成功注册唯一声音响亮的目标说话者,但 该团队的目标是,即使特定方向上最响亮的声音不是目标说话者,该系统也能正常工作。

微软高级研究员 Sefik Emre Eskimez 从事语音和人工智能研究,但没有参与这项研究,他说,在嘈杂的环境中单独辨别出一个人的声音非常困难。“我知道公司想这样做,”他说。“如果他们能做到这一点,就会开辟很多应用,特别是在会议场景中。”

卡内基梅隆大学语言技术研究所研究员 Samuele Cornell(未参与这项研究)表示,尽管语音分离研究往往偏重理论而非实践,但这项研究具有明确的现实应用价值。“我认为这是朝着正确方向迈出的一步,”Cornell 说。“这令人耳目一新。”