龙空技术网

一种扩展分解算法,开发语音识别性能,智能机器以敏感度进行交互

小三科普官 106

前言:

眼前各位老铁们对“面部表情识别算法设计与实现”可能比较讲究,我们都需要知道一些“面部表情识别算法设计与实现”的相关资讯。那么小编在网上网罗了一些有关“面部表情识别算法设计与实现””的相关知识,希望姐妹们能喜欢,我们快快来学习一下吧!

摘要

语音信号的情绪识别(ER)是一种强大的方法,因为它不能像面部表情或基于文本的情绪分析那样被模仿。情绪背后的宝贵信息对于人机交互具有重要意义,使智能机器能够在现实世界中以敏感度进行交互。

以前通过语音信号处理进行的ER研究主要集中在不同信号模式分解方法与隐藏的信息特征之间的关联上。然而,不正确的分解参数选择会导致由于模式重复和混合而导致信息信号分量损失。

相比之下,研究提出了VGG-optiVMD,一种赋能变分模态分解算法,通过评估其对VGG16扁平化输出层的影响,区分有意义的语音特征,并自动选择分解模式的数量和数据保真度约束的最佳平衡参数。

采用各种特征向量在不同数据库上训练VGG16网络,并评估VGG-optiVMD的可重复性和可靠性。通过连接梅尔频率倒谱系数、色谱图、梅尔频谱图、Tonnetz 图和光谱质心构建了一维、二维和三维特征向量。

结果证实了信号采样率和分解参数的微调与分类精度之间的协同关系,在柏林EMO-DB数据库中预测七种情绪时达到了最先进的96.09%的准确率。

介绍

单词含义通常通过语气传达,尽管人类的情感不仅通过所使用的单词来传达,而且还通过修改面部表情和声调来传达。因此,改变声音特征是大多数人表达不同情绪的方式。

因此,大量的人机交互研究分析了语音信号情感识别,其中使用其他流行的语义分析方法是不可行的。一些应用在不同领域采用了变分模态分解,如医学,结构工程和声音工程。

基于信号的ER采用各种瞬时信号,包括皮肤电活动、血容量脉搏、皮肤电反应、心电图、脑电图和语音,由于它们的复杂性和非平稳性,通常分为几种分解模式,这使得更容易提取潜在因素和模式。

非平稳信号特性及其分量使得平均短时间傅里叶变换并不总是合适的,以前的研究大多孤立地考虑这些方法。VMD将信号分解为围绕中心频率的窄带模式;它可以克服STFT限制和EMD模式混合效应。

声学特征选择对于SER描述从不同特征捕获的各种语音信号方面至关重要。声学特征包括时频、时域和频域表示。从视频域提取的特征比其他域携带更多信息数据,并且更好地从语音信号中捕获潜在情感内容。

以前的一些研究使用VMD方法分析信号,从分解的信号中提取特征。提出VGG-optiVMD,利用基于VMD的特征增强方法来丰富预测因子并最大限度地提高情绪分类的准确性。

相关作品

Dendukuri等人将语音信号分解为三个分量,在16000毫秒的帧内采样20 Hz,然后将各种模式中心频率统计参数输入支持向量机分类器。Lal et al.凭经验证明了VMD在正确的中心频率下分解语音信号的优势,并随后从噪声退化的情绪语音信号中估计了纪元位置。

hang等人提出了多维特征提取,用于脑电信号情感识别,将小波包分解与VMD相结合,分解脑电信号并提取小波包熵,修改多尺度样本熵,分形维数和每个情绪变分模态函数的第一差分作为特征分量。

随后,他们在DEAP数据集上使用随机森林分类器证明了可靠的结果。Khare等人使用元启发式技术减少了重建误差,使用脑电信号的特征向量中心性方法通道选择从16维压缩到1维。随后,在自己构建的四种情绪数据集上,与传统VMD相比,他们将优化变分模态分解精度提高了5%。

Pandey在基于DEAP数据集上提出了使用VMD和深度神经网络进行与主体无关的情感识别。两个特征,第一个差异和功率谱密度,足以识别平静,快乐,悲伤和愤怒的情绪。通过采用基于 VMD 的特征提取,提高了 SVM 和 DNN 分类器的准确性。

以前的几项研究考虑了STFT信号分解技术用于SER。 以前的研究很少使用VMD来分析语音信号,主要通过VMD处理EEG信号以进行ER。据我们所知,目前的研究是第一个使用VMD来丰富多维特征向量以增强VGG-16网络学习的研究。

变分模态分解

变分模式分解是一种将非平稳信号分解为子信号或模式的流行技术,其中模式包含来自原始信号的特定有意义属性,位于中心频率周围的窄带宽中。VMD自适应算法降低了原始信号的复杂性。

VMD 算法应用维纳滤波器、希尔伯特变换、分析信号和混频。两个主要的VMD对象是约束每个IMF中心频率的带宽,并从所有模式的总和中重建原始信号。首先,希尔伯特变换滤除频谱负侧的频率,然后将获得的带宽转移到模式中心频率。

其次,通过调制器功能将获得的频谱移动到基带区域,以获得中心频率、附近的带宽。最后,利用解调信号的H1高斯平滑度估算带宽。

建议的VGG-optiVMD

分解信号的重建误差可以通过选择最佳来减小。不正确的分解参数选择会产生重复模式,导致信号信息丢失,从而降低分类器性能。

VMD 的一个缺点是查找分解参数以提供最佳性能具有挑战性。相比之下,在我们的方法中,我们使用来自VGG16扁平输出层的反馈回路自动选择最佳的VMD分解参数。

算法1显示了所提出的优化 VMD 算法(VGG-optiVMD)。VGG-optiVMD的关键优势是跨实际多媒体应用的不同数据库的通用性和可重复性,例如用于客户满意度分析的ER。

特征提取、数据增强和分类

时频域中基本且信息丰富的声学特征包括提取Mel频谱图,色谱图,光谱对比度,tonnetz和Mel频率倒谱系数,随后以各种组合用于生成多维特征向量。

首先,对语音信号进行88400 Hz采样,提取五个众所周知的声学特征并将其重塑为单个特征向量,其次,应用SMOTE过采样策略来补偿少数类并减少模型偏差。

此外,测试和训练功能分别随机分为20%和80%集。随后,将所提出的VGG-optiVMD算法应用于解码特定时间的频率统计属性,以区分特征向量内的情绪。最后,在增强特征向量上训练VGG网络,将情绪分为七类。

建议的模型开发工作流程:使用 VGG-optiVMD 丰富提取的特征,以自动识别 K 和 \(\alpha \)。

造型

建模的目的是增强特征向量中的信息数据并避免过度拟合。使用不同的K和\(\alpha \)集合评估对分类准确性的增强效应。迭代评估最优 K 和\(\alpha \),直到达到稳健的分类精度或达到中断循环条件。

通过不同的信号采样率和VMD参数K和\(\alpha \)来评估模型性能。VGG-optiVMD将K = 6和\(\alpha \) = 2000的集合确定为最佳值。Graph表示各种采样率和窗口大小范围对EMODB中建议的模型和基线模型的影响。SR = 88200和 WS = 2048可以实现最高精度。

结果和讨论

为了评估基于VMD的特征增强方法的有效性,采用了几个评估指标,包括F1分数,训练集准确性和混淆矩阵。分析基线模型的结果,该模型是使用相同的框架构建的,没有基于VMD的特征向量增强,这有助于我们证明VGG-optiVMD在SER中的强大功能。

因此,研究人员试图在不使用VMD和VMD的情况下,通过采样率,窗口大小,K和\(\alpha \)的变化来评估模型性能。与基线模型不同,所提出的模型在采样率和窗口尺寸较大时表现更好。此外,通过VGG-optiVMD获得了最高的列车集精度和F1分数,证明了基于VMD的特征增强方法显著提高了分类精度。

VGG-optiVMD在特征矢量3D-Mel频谱图+MFCCs+色谱图上的高效功能清楚地表明(b)中频率的能大小具有更高的区别。

根据实验结果,模式K的数量、带宽控制参数\(\alpha\)和分类精度之间存在相关性。不同的声学特征通过各种分解参数集来丰富。

结果表明,在两个数据集中,K (4–6)和\(\alpha \)(2000–4000)的准确度均更高,尽管 VGG-optiVMD 设置为有限的范围\(\alpha \)(1000–10000)和K (2–8),因为当K值超过8且采样率为88400时会增加繁重的计算负载。这种限制可以被认为是VGG-optiVMD的功能约束。

尽管如此,在K=09和\(\alpha \)=6的情况下,获得了最先进的结果,准确度为2000.1%。图3显示了VGG-optiVMD在特征矢量3D-Mel频谱图+MFCCs+色谱图上的高效功能。

结论

语音信号处理在某些应用中应用,当只能访问语音来检测情绪时,这是研究的第一个目的,本研究的第二个目的是引入特定的数据增强技术,通过设计VGG-optiVMD(一种扩展VMD算法来提高SER性能)来丰富提取的声学特征。

究结果为采样率、分解模式的数量K和数据保真约束的平衡参数\(\alpha \)在情绪分类器性能中的关键作用提供了坚实的经验证实。

综上所述,这些发现表明VMD分解参数K(2-6)和\(\alpha\)(2000-6000)是EMODB数据库。所提出的VGG-optiVMD算法将情绪分类改进为最先进的结果,柏林EMO-DB的测试准确率为96.09%,RAVDESS数据集的测试准确率为86.21%。

需要做进一步的工作来确定仅从信息分解模式中提取声学特征是否可以减少计算负载约束。因此,在进行声学特征提取过程之前,应使用VMD算法重复研究。

●—<参考文献>—●

【1】Meng,H.:使用云计算在智能手机上开发自动面部表情和语音情感识别应用程序

【2】S.W.:使用深度卷积神经网络从频谱图进行语音情感识别

【3】Ullah:用于智能情感服务的基于深度特征的语音情感识别

【4】wav2vec 2.0:语音表示的自监督学习框架

【5】Yazici,A.:使用深度卷积神经网络进行语音情感识别。生物医学

标签: #面部表情识别算法设计与实现