苹果如何让 Siri 在 HomePod 上更聪明？技术细节

DeepTech深科技 06-26 1783

前言：

今天咱们对“siri怎么重新设置人声”大致比较重视，朋友们都想要知道一些“siri怎么重新设置人声”的相关文章。那么小编也在网摘上汇集了一些有关“siri怎么重新设置人声””的相关知识，希望咱们能喜欢，各位老铁们一起来学习一下吧！

智能音箱常发生一些搞笑事件，像是答非所问、容易被错误唤醒、胡乱下电商订单等，背后的问题与语音识别、噪音信息的干扰大有关系，苹果音频软件工程和 Siri Speech 团队在苹果的AI blog “机器学习期刊”撰文，透露了他们是如何在远场设置中优化 HomePod 上的 Siri。

在智能手机上使用语音助理时，用户的嘴巴通常是很靠近收音的麦克风，但使用智能音箱的情境则不同，用户往往在有点距离的位置来操控音箱，这种“远场交互”或是嘈杂环境就带来了许多挑战，包括回声、混响（reverberation）和噪音等，都会降低目标说话者音频的质量和可理解度，是智能音箱在设计上必须克服的难题。

而 HomePod 上的 Siri 如何正确识别命令？简单来说，苹果为 HomePod 建立了一个多通道信号处理系统，使用 6 个麦克风，并在 Apple A8 芯片上连续进行多通道信号处理系统，同时，当环境噪声条件和说话者改变，多通道滤波也会持续性调节运作。

苹果指出，HomePod 的多通道信号处理系统主要有两大方面的技术，一是基于掩模的多通道滤波（Mask-based multichannel filtering），使用了深度学习来消除回声和背景噪声，二是基于无监督学习（Unsupervised Learning）打造的“在线学习”算法，可以处理多麦克风信号、分离同时声源。所以，当用户说出“Hey Siri”唤醒词时，集成上述两大方法的系统，就会为语音识别器选择出最好的音频流，消除干扰语音。

图|Siri 在 HomePod 上的在线多通道信号处理架构（图片来源：苹果）

信号处理从传统算法走向机器学习

耳朵可让人类听得清楚，识别声音的方向，或者判断处在一个什么样的环境当中。想要让机器能够具备如同人类耳朵的完整功能，现有技术还是很难实现，主要在于声音是一种叠加的信号，一个场景里面有各种的人声、噪声等叠加在一起，信号能量混在一起之后，想要将其分开就很困难。

传统声音信号处理的思路是基于噪音特征，比如噪音的形态（Pattern）是如何、在频率上有什么特性等，接着设计滤波器，把噪音留在滤网上，剩下的声音就留下来。但此法存在一个问题，世界上的噪声种类变化太多，聚合一起有各种排列组合，而且很多的动态噪音没有办法事先预测何时会出现。

以往主流作法是使用多个麦克风来收音、增强语音，焦点也多放在去除混响、噪声抑制。不过，近几年，前端的信号处理也开始引入了深度学习，在特征提取之前，对原始语音进行处理，如噪声抑制、回声消除、混响抑制等。

图|苹果智能音箱 HomePod（图片来源：苹果）

利用无监督学习进行盲源分离

在苹果公布的文章中，提出了多声道回声消除（MCEC）算法、基于掩模的回声抑制和抑制等方法，不过，更值得注意的是，苹果提出了一个关于盲源分离（BSS，Blind Source Separation）的观点：BSS 可以通过无监督学习把多个音频来源分离为单个音频流，但是如何从多个输出流选择正确的音频流（audio stream）仍然是个挑战。

因此，苹果认为需要建立自上而下的知识（Top-Down Knowledge）来了解用户的语音命令，除了使用唤醒词“Hey Siri”来识别目标对象的音频之外，他们还开发了一种“分离竞争说话者”（competing talker separation）的方法，并且通过深度学习来选择是哪一个讲话者正在发出命令，应专注于处理该讲话者。通过上述做法可以改善 Siri 在智能音箱上的体验。

盲源分离可以说是目前声学、语音识别领域一个很受关注的议题，许多科研人员或企业都想要突破这个问题，BSS 是指一种不需要预先得到资讯，从感测器所量测到的混合信号（mixtures）中，把信号源（sources）抽取、分离出来的方式，说得更简单一点，BSS 的目标就是在信号和混合过程均未知的情况下，分离出各种音源。

在 Competing Talker Separation 部分，苹果采用一种轻量的无监督学习方法，把麦克风阵列信号分解为独立的音频流，以进行盲源分离。此外，苹果也开发一个基于深度学习的音频流选择系统，当系统侦测到“Hey Siri”时，会为每个音频流打分数，并选择最高分的音频流，将其发送到 Siri 进行语音识别和完成任务。

语音被视为是继触控之后，将大量普及于日常生活的新交互模式，但仍旧有许多挑战等待被解决，近年来，图像或视频的 AI 发展，快速，但相较于机器视觉的多样化和活跃度，机器听觉领域仍处于起步阶段，而 AI 辅助语音处理优化智能语音助理在远场交互体验，也有机会为机器听觉带来更多突破。

本文地址：http://www.longkongtuishu.com/ca3faBAFsBFECD1JV.html

标签： #siri怎么重新设置人声