龙空技术网

心理声学声掩蔽效应及应用

21dB声学 94

前言:

目前我们对“语音增强原理是什么”大约比较注意,同学们都需要知道一些“语音增强原理是什么”的相关资讯。那么小编同时在网摘上汇集了一些关于“语音增强原理是什么””的相关文章,希望咱们能喜欢,看官们快快来学习一下吧!

作者:王涛兵

一、声掩蔽效应的定义

由于某个声音的存在而使人耳对别的声音听觉灵敏度降低的现象,称为“声掩蔽效应”。当人耳在倾听一个声音的同时,如果存在另一个声音,就会影响到人耳对所听声音的听闻效果,这时对所听声音的听阈就要提高。

二、声掩蔽效应的分类

掩蔽效应发生时,一般以不同性质的声音作为掩蔽声,据此可以分为噪声掩蔽、纯音掩蔽、复音掩蔽等。此外,根据掩蔽声与被掩蔽声是否同时到达,又可以分为同时掩蔽(频域掩蔽)和非同时掩蔽(时域掩蔽)。

(1)窄带噪声掩蔽

窄带噪声通常是指带宽等于或者小于听觉临界频带的噪声。在图1中,以不同中心频率的窄带噪声作为掩蔽声时的听阈曲线,窄带噪声的中心频率分别为0.25KHz,1KHz,4KHz,带宽分别为0.1KHz、0.16KHz和0.7KHz,图上部水平虚线为掩蔽噪声声强级60dB,中部实线表示刚好可听到的纯音声级,下部的虚线是听觉安静域值。从图中可以看出,被掩蔽纯音的频率偏离掩蔽噪声中心频率越大,掩蔽效应下降越快;因为是平滑以后的数据,故而不呈锯齿状。信号分量和掩蔽域值之间的声级差,称信号掩蔽比(signal to mask ratio, SMR),SMR越大,掩蔽效果越小[1]。图1中,0.25KHz,1KHz,4KHz的最小SMR分别为2、3和5dB,最小SMR是设计音频编码器很重要的参数[2]。

图1 窄带噪声掩蔽纯音实测曲线[6]

(2)纯音掩蔽

纯音是最简单的声音之一,在使用纯音作为掩蔽声时,由于可能存在拍音和差音,测量掩蔽阈值会比较具有挑战性。图2显示了以1KHz不同声级的纯音作为被掩蔽音时测得的掩蔽曲线。为了避免频率相等时的拍频效应,被掩蔽音和掩蔽音之间保持90度的相位差。从图中可以看出,当被掩蔽音声级较低时,掩蔽域值向低频扩展(斜率较小);而在声级较高时则相反。当掩蔽音声级为90dB时,掩蔽曲线峰值为75dB,信号掩蔽比为15dB。与噪声相比,纯音在掩蔽方面具有较大的信号掩蔽比(SMR),这意味着噪声比纯音具有更好的掩蔽效果。纯音的掩蔽效应基本符合以下几个规律:低频纯音容易掩蔽高频纯音,而高频纯音相对较难掩蔽低频纯音;频率相近的纯音容易互相掩蔽;当增加掩蔽声的声压级时,掩蔽阈值会提高,同时被掩蔽的频率范围也会扩展。

图2 纯音掩蔽纯音的掩蔽曲线[6]

(3)复音的掩蔽

绝大多数声音都以复音的形式存在。音乐中的音调通常由一个基频和多个谐波频率构成,而音色主要由这些谐波频率的结构决定。复音的掩蔽范围主要取决于其所包含的频率成分。在复音的每个频率附近都会产生一个最大的掩蔽量,而当频率小于复音所包含的最低频率或大于其所包含的最高频率时,掩蔽效应会逐渐减弱,并且掩蔽阈值会趋近于在无掩蔽声时的听阈。

(4)同时掩蔽(频域掩蔽)

频域掩蔽是指在掩蔽声与被掩蔽声同时存在时产生的掩蔽效应,又称为同时掩蔽。在这种情况下,掩蔽声在掩蔽效应发生期间持续影响着被掩蔽声,形成一种强烈的掩蔽效应。通常情况下,频域中的一个强音会掩盖附近较弱的声音,而距离强音较近的弱音往往更容易被掩蔽;相反地,距离较远的弱音不太容易受到掩蔽效应的影响。图3解释了频域掩蔽现象,可以看到一个强信号掩蔽了两个接近其频率的弱信号,低于掩蔽域值的弱信号将无法听见,这导致听觉的安静阈值在掩蔽作用下提高。一般来说,低频声音更容易掩蔽高频声音。

图3 频域掩蔽曲线

(5)非同时掩蔽(时域掩蔽)

所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时作用时,又称非同时掩蔽。声音信号大多数时候是非稳态的瞬时信号,声压级随着时间变化很快,即强音后面跟着弱音,弱音后面又可能跟着强音。比较强的声音往往会掩蔽随后到来的较弱音。时域掩蔽又分为前掩蔽和后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为前掩蔽;否则称为后掩蔽。前掩蔽效应要大于后掩蔽效应,前掩蔽发生作用的时间大于后掩蔽的时间。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,时域掩蔽也随着时间的推移很快衰减,是一种弱掩蔽效应。

三、声掩蔽效应的应用(1)临床耳鸣的治疗

耳鸣是在缺乏外界客观声源时的一种声音感知,可发生于单侧耳、双侧耳、颅内或颅周。原发性耳鸣或称客观性耳鸣,定义为:自觉耳内、颅内或颅周有鸣响的感觉而周围环境中并无相应客观声源,伴或不伴有感音神经性听力损失[3]。声治疗或称声掩蔽治疗,是利用外部声音改变患者对自身耳鸣的感知和(或)对耳鸣的反应[4]。具体而言,就是选择活动性增强部分毛细胞相对应的窄带噪声以兴奋支配这部分细胞的传出神经,从而降低毛细胞的自发活动性,使之恢复正常活动。经过一段时期的刺激训练,即可恢复部分或全部传出神经的兴奋性,降低异常自发放电活动,抹掉中枢对耳鸣的记忆及破坏其可塑性,从而达到缓解耳鸣甚至耳鸣消失。

(2)“特定语言损伤”病因的调查

研究表明世界上3-6%的儿童口头表达和理解别人的说话会极端困难,这种症状称之为“特定语言损伤”。研究认为特定语言损伤源于对大脑皮层语言和认知的加工缺乏特异性,更有研究者认为特定语言损伤是由于一个更基本的原因,即受影响的儿童不能分辨出言语中连续短声在声学上的不同。采用脑电图以及功能性核磁共振技术研究发现,语言障碍儿童存在非语言的感觉紊乱和神经生理学损伤,如复杂的、非语言的声音听觉记忆障碍,初级听皮层以及相关脑区在不同掩蔽条件下出现不同活动模式,实验显示语言障碍儿童对听觉的后掩蔽效应与正常儿童相比减弱,但是同时掩蔽效应则不太受影响。通过在听觉同时掩蔽和后掩蔽的条件下测量的大脑活动,发现这两种情况可激活不同的听觉加工流程和不同的感知脑区,对于语言障碍儿童来说,可能是后掩蔽模式激活的部分特定的听觉和认知脑功能恰好被削弱了。这说明提示听觉系统对声信号的时相整合(temporal integration)功能在语言认知过程中起重要作用。

(3)版权保护——数字音频水印

水印嵌入的基本原理是基于心理声学模型这一概念,通过计算嵌入水印信息的音频信号的频域掩蔽曲线来掩盖水印信息。大部分能量都集中在音频中低频音频信号中,所以低频音频信号是人耳的敏感频率区,小干扰会引起听力差异。为了满足水印不易被识别的要求,在该区域嵌入水印是很困难的。所以可以将水印信号进行小波变换,这样水印信息的隐藏能力能够得到很大提升。同时,小波变换后,音频信号的振动幅度也会变大,这又降低了隐藏的水印信息检测误码率。

(4)MP3数字音乐格式的压缩

应用频域掩蔽的原理,人们发明了mp3等压缩的数字音乐格式。为压缩码率, 音频编码都在频域进行,由于掩蔽现象,在掩蔽域值以下的频率分量因为听不到, 完全可以不用编码传输,即使略高于掩蔽域值的分量因为响度大为降低,对听觉感知的贡献不大,可以粗略量化,从而节省了大量的传输码率,而不影响听到声音的音质[5]。

(5)环境噪声控制

掩蔽现象可以适当地应用于环境噪声控制,如果掩蔽噪声为连续的声音,而又不大响亮,且没有信息内容时,它可以成为使人易于接受的本底噪声,同时也可以抑制其它干扰的噪声,使人听到这些声音时从心理上不觉得烦躁,如刹车的刺耳声,盘子的碰撞声,便可用风扇之类较柔和的噪声来掩蔽。

四、总结

本文从声掩蔽效应的定义出发,介绍了声掩蔽效应的类型:噪声掩蔽、纯音掩蔽、复音掩蔽以及同时(频域)掩蔽、非同时(时域)掩蔽。此外,本文还梳理了掩蔽效应的若干应用:如临床耳鸣的治疗、语音增强算法中的应用、数字音频水印、mp3数字音乐格式的压缩等。

参考文献:

[1]莫福源.听觉的声学现象和原理(3) [J]. 听力学及言语疾病杂志, 2018, 26(04): 453-454.

[2]Bosi M, Goldberg RE. Introduction to digital audio coding. Boston: Kluwer Academic Publishers, 2003.149~177.

[3]TUNKEL D E, BAUER C A, SUN G H, et al. Clinical practice guideline: tinnitus [J]. Otolaryngol Head Neck Surg, 2014, 151:S1-S40.

[4]SEARCHFIELD G D, KOBAYASHI K, SANDERS M. An adaptation level theory of tinnitus audibility[J]. Front Syst Neurosci, 2012, 6:46-49.

[5]International Standard[S].ISO/IEC 13818-7. Information technology-generic coding of moving picture and associated audio Information.Part7:Advanced Audio Coding (AAC) .1997.

[6]Lin Y, Abdulla W H. Audio watermarking for copyrights protection[J]. University of Auckland, Auckland, New Zealand, Tech. Rep, 2007.

标签: #语音增强原理是什么 #语音增强原理包括 #语音增强原理包括什么