龙空技术网

语音“身份证”,语音识别背后技术,基于深度学习的语音增强算法

栾城苏 91

前言:

此刻各位老铁们对“特征提取的算法研究”大约比较珍视,姐妹们都需要知道一些“特征提取的算法研究”的相关资讯。那么小编在网上收集了一些有关“特征提取的算法研究””的相关知识,希望我们能喜欢,同学们快快来了解一下吧!

阅读前,请伸出您的贵手点击一下关注,希望能给您带来不一样的阅读体验,可以在评论区进行讨论和分享哦感谢您的支持!

文案|栾城苏

编辑|栾城苏

简介

现在的电子设备和服务已经走进了千家万户,如手机、助听器、耳机和电话会议系统,在我们的生活中发挥着非常重要作用。

特别是基于语音技术的功能和应用程序(语音交互、语音通信和语音识别),在这些设备和服务中有着至关重要作用。

然而各种干扰源的存在,会导致在传输过程中语音信号的降低,从而破坏上述功能和应用的能力。

这些干扰源包括加性噪声、通道失真和混响,为了减轻那些干扰的影响,近几十年来,众多研究者从语音处理系统的不同角度,提出了各种解决方法。

比如前端信号处理、声学特征设计和后端声学建模,简单来讲前端声学信号域处理的方法,属于是语音增强(SE),而相比之下,声学特征和模型的技术则是和强大的语音识别能力有关。

而语音增强(SE)算法可分为四类:频谱减法、统计建模、子空间基础和掩码基础

特别是由于近十年深度神经网络(DNN)技术的成功发展,语音增强算法的建模和相应的程序得到了显著升级,能够实现更好的性能。

语音识别背后的技术

例如DNN可用于通过准备好的训练集中的大量干扰-干净话语,学习干扰话语和干净话语之间的统计关系。

特别是由于语音增强,嘈杂的语音转换回干净的语音是机器深度学习中的标准回归问题。

当涉及到语音增强算法的性能评估时,研究者经常使用一些客观指标,例如语音质量的感知评估(PESQ)和短时客观清晰度(STOI)。

这些指标不一定与增强型和原始干净语音之间的均方距离相关,因此在最近开发的一些基于深度学习的SE算法中,PESQ和STOI直接用作DNN模型训练的目标函数。

PESQ是ITU-T推荐的衡量语音质量的标准客观指标,它被开发用于预测主观听力测试中的平均意见分数(MOS),它所显示出高度相关性,让它被广泛用于评估语音分离和增强算法。

它主要通过使用认知建模计算干净语音和分离增强语音之间的干扰,来量化语音质量,在[−0.5,4.5]的范围之间,PESQ值越高表示质量越好。

许多研究工作都采用了深度神经网络来参与ASR系统,以提高其噪声鲁棒性,例如具有单个DNN的点对点(E2E)ASR框架,直接将声学特征序列映射到字序列。

语音增强技术对语音质量指标(如PESQ)的改进,并不能转化为更好的ASR性能,所以他们提出了基于掩模估计网络的语音增强和声学建模的联合优化,以减少WER值。

此外一种用于先验SNR估计的深度学习方案,被称为DeepXi,可以促进传统的基于最小均方误差(MMSE)的SE方法,实现鲁棒性更高的ASR系统。

与这些复杂而细粒度的技术相比,新提出的方法是一个相对轻量级的网络,更容易学习,但可能效率较低。

但是该方法是同一特征域中的DNN级转换,因此它可以轻松地与这些高级方法集成,以提高ASR性能。

MFCC计算流程图

在传统的ASR系统中,MFCC因为其几乎不相关的特性,而优于FBANK,然而在一些先进的ASR系统中,FBANK往往比MFCC表现得更好。

窗口时域帧信号通过离散傅里叶变换(DFT)转换为声频域,在频域中可以更好地揭示信号的人类听觉特性。

梅尔频率包装

人类听觉机制中,感知的频率分辨率随着物理频率的增加而降低,使人类对高频频率变化的敏感性降低。

由三角带通滤波器组成的mel-filter-bank装置,旨在通过在低频定位更多的窄带宽滤波器,和在高频定位更少的宽带宽滤波器,来模拟上述机制

人类的听觉系统倾向于调整接收到的声音的强度以保护耳朵,当输入声音具有高振幅时,会被人耳抑制。

HMM声学模型由多个状态组成,每个状态对应于描述随机观测向量的概率函数,为了训练显示每个状态的观测概率的深度神经网络(DNN),一个常见的过程是先训练一个传统的GMM-HMM,然后使用GMM-HMM在训练集中,观察每个带有状态标签的目标。

再对作为输入的观察结果,以及作为所需输出的状态标签,进行监督学习,以获得HMM状态的深度神经网络(DNN)。

有人提出了一种在ASR中,创建噪声鲁棒语音特征的新方法,该方法在不交替声学模型的情况下,增强了ASR系统噪声鲁棒性的原始声学特征,

同时应该确保在识别中产生较低的单词错误率,因为它们对应于状态序列,相对于原始状态,具有更高的状态后验准确性。

所提方法的流程图

与一些使用MSE作为损失函数的基于DNN的语音特征提取方法相比,新提出的方法具有以下潜在优势,旨在最大化给定噪声损坏数据的多条件声学模型的状态后验精度。

从而隐含地降低噪声语音识别的单词错误率(WER),相比之下,那些最小化训练集中干净-噪声语音特征对中MSE的方法与后续声学模型关系不大,因此不能保证提高噪声情况下的识别精度。

可以采用多条件训练集依次获得GMM-HMM和DNN-HMM声学模型,用于训练去噪特征提取网络。

但希望这样的去噪框架,在使用干净的无噪声训练数据时,能够很好地工作,根本原因是该框架调整了原始语音特征,以适应后续声学模型。

用于去噪特征提取的DNN结构

对于训练集和测试集中的每个话语,创建了69维FBANK特征流、23个静态FBANK及其每帧的增量和增量、帧持续时间为20毫秒、帧偏移为10毫秒,作为基线特征表现形式。

按照所提出的去噪DNN框架将FBANK作为输入,生成更新的功能以便进行后续识别。

去噪DNN模型是一个卷积神经网络(CNN),具有四个相同大小的一维卷积层,每个层都遵循配置设置(30,5,2),其中设置表示为“内核数、内核大小、填充数”。

此外这四个卷积层之后,是两个相同的全连接层,具有759个节点,每层输出的激活函数是整流线性单元(ReLU)。

该去噪框架的训练过程,使用Adam优化器进行了30个epoch,并使用了对数似然损失函数。

PESQ和WER这两个指标似乎没有相关性,因为MMSE方法出现了更好的PESQ分数,这也伴随着更高的WER。

也就是说提高语音质量并不一定会降低其识别准确性,相对于PESQ,STOI指数更多地与嘈杂情况下的识别准确性有关。

STOI的增加并不一定会降低WER,而WER的降低总是伴随着STOI的增加。

这里使用的两种SE方法,在嘈杂的情况下没有显示出语音识别的明显优势,而直接补偿用于噪声识别系统的语音特征,可能比通过SE方法增强语音信号更有助于减少WER。

MMSE,IRM的各种评估结果以及噪声环境“发动机”中测试集的基线

后验准确性的保证

我们可以大胆提出一种称为“最大状态后验概率”的方法,将其缩写为“MSPP”,而多条件测试话语的实验结果,将进一步分为多条件训练模式和清洁条件训练模式两部分。

虽然方法中的去噪框架是在多条件训练集的帮助下实现的,但这并不意味着产生的增强语音特征,一定可以在两种模式下表现良好。

该DNN是通过直接最小化多条件训练集中,噪声和干净FBANK特征对之间的均方误差(MSE)来学习的,这种比较方法称为基于特征的MSE,可以缩写为“FMSE。

在这里还列出了测试话语的各种方法的状态错误率,就相关数据而言,我们不难看出他们之间的区别。

基线、MSPP、FMSE、MMSE和IRM的状态错误率和WER(%),对噪声环境“白色”中的测试集进行多条件训练

在手提钻噪声环境中,通过各种方法实现的WER,明显低的白噪声和发动机噪声环境中的WER,这表明手提钻噪声给语音信号带来的失真,小于白噪声和发动机噪声。

这里使用的所有方法,都未能超过手提钻噪声案例的基线结果,这表明语音增强噪声鲁棒特征方法,可能会对污染较少的话语,引入可进一步观察到的失真情况。

基线、MSPP、FMSE、MMSE和IRM的状态错误率和WER(%),并对噪声环境“引擎”中的测试集进行多条件训练

在实验数据中反映出的白噪声和发动机噪声情况,对于新提出的MSPP方法而言,在大多数信噪比情况下,都能实现较低的WER,这明显优于其他方法。

清楚地验证了MSPP方法的主要思想,即增加状态后验,有助于提高噪声鲁棒性,并提高识别精度。

基线、MSPP、FMSE、MMSE和IRM的状态错误率和WER(%),对噪声环境“手提钻”中的测试集进行多条件训练

MSPP方法实现了,在0分贝的情况下,其白噪声和发动机噪声的信噪比为54.9%和54.6%,,WER明显优于基线结果57.0%和55.1%。

需要注意的是所提出的MSPP中的去噪框架,是在噪声数据集上创建的,其中噪声类型,既不是白色,也不是引擎,因此MSPP也被证明,具有克服看不见的噪声的泛化能力。

其他各种方法的实验数据达到的状态错误率时,不难发现它们与获得的WER没有很强的相关性,所提出的MSPP并不总是具有较低的状态错误率。

而在某些SNR情况下,具有最低状态错误率的IRM方法,会导致较高的WER,一种可能的解释是,因为状态错误率对失真非常敏感,使其无法成为一个好的评估指标。

MSPP试图选择最佳状态序列,并且将是一个决策过程,它不一定会与状态误差的最小化一致。

而FMSE方法旨在最小化干净噪声FBANK对之间的均方误差(MSE),而之前的实验数据,也表明了其在所有噪声情况下的行为,都比基线差了不少。

与原始FBANK声学模型相比,可以通过数据增强生成的声学模型,可以进一步降低MSPP方法在测试集的WER值和状态错误率。

对于某些SNR来讲,噪声类型“白色”和“引擎”的WER降低,可能高达1%。

例如,在发动机噪声情况下的SNR为11dB时,基线、MSPP和MSPP-Aug的WER值分别为55.1%,54.6%和53.0%。

基线、MSPP和MSPP-Aug的状态错误率和WER(%),在噪声环境“白色”下对测试集进行多条件训练

这些结果清楚地揭示了数据增强技术的有效性,该技术增加了训练数据的多样性,从而有利于所得声学模型的噪声鲁棒性。

结论

我们主要通过关注自动语音识别(ASR)中的噪声问题,来分析语音增强方法对ASR中声学特征鲁棒性的可能影响。

并提出一种新的基于深度学习的框架,来创建噪声鲁棒语音特征,而该框架利用深度神经网络,来最大化所用声学模型的状态后验的准确性,得到了这些模型在训练集中提供的干净与嘈杂的FBANK语音特征数据。

如果你也喜欢我的文章,不妨点个“关注”吧!小生在此谢过了!

END

标签: #特征提取的算法研究