龙空技术网

无损录音其实没有那么好,有损录音也没那么差……

跟周老师一起学物理 565

前言:

当前咱们对“常用的无损压缩算法有什么”大体比较注意,各位老铁们都需要剖析一些“常用的无损压缩算法有什么”的相关知识。那么小编也在网络上搜集了一些对于“常用的无损压缩算法有什么””的相关资讯,希望朋友们能喜欢,各位老铁们快快来了解一下吧!

最近看到很多网友喜大普奔于Apple Music开放无损音乐,进而又发现好多蓝牙设备实际上对无损音乐支持得并不好,于是就又引发了各种吐槽与应对办法……而我今天要说的是,其实,所谓无损与有损只是个相对概念,只要能满足高保真聆听要求的录音文件与传输码率都是可以接受的方式,不必过分执着于所谓的无损概念,否则容易影响听音的体验与享受。

首先,这个世界上本就没有所谓“无损”的录音!我说这话真不是为了哗众取宠,而是事实如此,我尽量用通俗的事例为大家阐述清楚这个事实……

三维世界

大家通过对立体几何的学习可以知道,这个世界是个三维世界,当然也有将时间轴设定为第四维的说法,暂时不在我们的讨论范围,在这个三维世界里,发声物体都是具备三维体积与形状的,其震动发声的原始波形也必然是三维的,是具有空间震动特性的,换句话说,如果你能“看”到这个震动,你会发现这个震动是有形状的,是三维的,是立体的,其向周围空间扩散的时候照样是有形状的,是三维的,是立体的……然而当我们试图用一只话筒拾取这个声音震动的时候,我们只能从一个方向,或者说一个维度上拾取这个原本是带形状的三维震动,而且也仅仅是延话筒方向的一维的线性的震动。而根据这个震动记录下来的声音与原始震动相去甚远,完全没有可能重建那个原始的震动,因此,相对于原始的三维的机械震动发出的声音来说,我们用话筒采集的一维的震动录音,显然是“有损”录音。我原来举过一个例子,钢琴的震动是由琴键敲击钢丝并策动钢琴整体发出的震动,这里面不但有众多长短不一的钢琴丝,还有木质框架,琴板螺丝等复杂物体的组合,这么复杂的组合体发出的声音如何能被一张纸(喇叭的纸盆)重建呢?这里面必然是有损的,有所妥协的,不是真的,是模拟的!

钢琴

喇叭

然而,对于这么巨大的差异,我们那张神奇的纸(喇叭纸盆)居然能模拟得像模像样,甚至以假乱真,这又是为何呢?其实,神奇的不是那张纸,而是我们的耳朵天然的就是一维的线性采集系统,在此我只是拿一只耳朵结构举例,事实上,我们人耳的鼓膜只能接受一维的震动信息,无论震动多么复杂,人耳鼓膜也只能按照一个方向的策动力震动(类似活塞运动),而人耳的耳道也对震动的方向具有一定的选择性,也就是说,外界空气的震动经过耳道的导引,就已经“一维”化了,再经过鼓膜的震动采样,传到内耳听小骨时,已经彻头彻尾的是一维震动了。因此,我们听到的声音已经不是大自然的原始震动了,充其量只能是其中一部分,我们的听觉系统对大自然的声响进行了“有损裁剪”,从而降低了我们感知世界的难度。由于我们拥有两只耳朵,因此,可以对空间震动产生一个左右方向的二维的感知,而我们的耳廓又进一步让我们对声音的前后与上下方位有了粗略的判断,但是对声音的原始形状就没法判断了,因此,我们很容易混淆一个人的歌声是喇叭发出来的,还是肉嗓子发出来的……

耳朵的结构

总结一下,我们现在使用的这套音响系统之所以可以使用,是因为我们的耳朵在听大自然的声音的时候做了有损裁剪,基于这种有损听觉系统的特点,我们才能以如此简便的方式将声音有损的记录与重放,否则,还真想不出什么办法才能记录与重放真实的三维震动……

到现在为止,大家可以理解了即便是最“无损”的录音也是基于有损系统的,是妥协的产物,是将三维震动化简为一维震动的产物,之所以能这么做,不是因为别的,正是因为我们自身结构上的妥协……

我们听到的声音都是经过妥协的有损的震动

以上说的都是录音层面的“有损”与“无损”,那么,当下数码音频的有损压缩是否需要予以否定呢?是否其音质差到不可接受呢?其实也不尽然!

事实上,音响工程师们在对声音数字化的同时,对数字化音频的压缩就已经提上日程了,因为在70年代末80年代初那个时代,数字存储一直是个大问题,那时候还没有硬盘,数字存储靠的是磁带,而类似标准CD格式的数字化不压缩音频文件动辄几百兆,很让人头痛!因此后来不得不想到用录像机来记录数码文件,因为录像机采用了旋转磁头,磁头与磁带的相对扫描速度高(可超过3米/秒),非常适合记录大量的数字化音频,因此,当时为了不改变录像机的记录格式,工程师们就将数字化音频编码到标准的电视信号的行场扫描信号中,为了适应PAL制电视信号的格式,数字信号的采样频率于是就有了44.1kHz这么有整有零的奇葩采样率,因为只有这样,数字信号才能被编到视频信号中被录像机识别记录,播放时,对录像机而言就是播放录像信号,而该信号被附加的数字编解码设备提取出数字信号再经过DAC(数模转换器)输出立体声模拟信号。由此可见,当年为了这巨量的数字信号费了多大的周折……因此,从一开始就研究如何压缩这些数字音频数据……

说到数据压缩,也有无损压缩与有损压缩之分,所谓无损压缩,就是压缩后的数据经过解压可以完全恢复数据原貌,完全没有错误,无损压缩与源数据是否为音频数据无关,主要是依据数据相关性进行压缩,举个简单的例子,11111000000可能用5个1与6个0表达站的字节位数更少,实际算法更复杂,但是毕竟这种数据压缩的机会不多,一般能达到一半的压缩率就不错了,现在比较常见的无损压缩算法有flac与ape,微软与苹果公司都有相应的无损压缩算法,效果都差不多,压缩率也差不多……因为无损,所以比较容易被接受,但毕竟压缩率有限。

数字文件的压缩一定是无损压缩,否则就会出现错误

再说说有损压缩,最早接触有损压缩是SONY公司的MD产品,因为其所用碟片尺寸小,因此想要在小尺寸碟片上存储与CD相同容量的音乐就必须对音乐数据进行压缩,其基本的压缩理念依然是不影响听感体验的,也就是利用人耳的听觉特性(漏洞)进行数据裁剪,举个简单的例子,人耳有个特性叫掩蔽效应,就是在一个比较强的声音之后一段时间内,人耳对随之而来的相对弱小的声音是充耳不闻的,因此,这部分音频数据就可以被适当地裁剪掉以节省数据存储空间,另外,高频丰富的音乐内容占码率比较高,而高频不十分丰富的曲目片段就可以占用较低的码率,这样既保证了音乐的高品质记录,在不影响听感的前提下,还能节省大量的码率,表现为数码音乐文件被压缩了。当然具体的算法比我说的要复杂得多,我要说的是,所谓“有损”的压缩算法,绝大多数还是钻我们人耳听音系统的空子,被压缩(裁撤)的实际上是我们听不到的那部分声音,尽量做到数据“有损”而听感无损,经过这么多年的进步迭代,现在的音频数据压缩算法已经非常成熟了,记得我早年对比源码wav与320kmp3的时候还能很明显地看出此二者在音频频谱上的差异,现在的320kMP3的频谱看起来与没压缩的WAV文件基本没区别了,听起来音响效果也是非常接近,不是特别拿来分辨几乎没区别,就音质表现来说,足以满足高保真听音的需求了。因此,我认为,像320k固定压缩码率(CBR)的MP3已经达到了音质与文件大小的非常好的平衡,对于一般听音乐来说,尤其是用手机听音乐来说完全没有必要追求所谓的无损格式,毕竟可以节省10倍左右的存储空间,对于像手机这种移动设备来说,节省空间多放一些音乐还是有意义的。对于用蓝牙设备听音的朋友,选择高质量的所谓“有损”音频,也是很好的选择,毕竟蓝牙传输的带宽有限,且一般来说都是经过重新编码传输的,对音频多少都有损伤……当然,随着存储芯片价格逐年下降,大家可利用的存储空间也越来越大,慢慢地以后可能就不再纠结存储空间与数据压缩的问题了……

标签: #常用的无损压缩算法有什么