龙空技术网

Audio系列:从模拟音频到数字音频二 PCM与DSD

小亚漫聊社 70

前言:

现在姐妹们对“音频数字化计算”大约比较关心,各位老铁们都需要学习一些“音频数字化计算”的相关文章。那么小编同时在网摘上网罗了一些有关“音频数字化计算””的相关文章,希望姐妹们能喜欢,大家一起来了解一下吧!

上一章,笔者简单介绍了一下声音的本质,模拟音频存储的发展历程和优缺点

本章将会介绍一下数字音频存储的原理

数字音频存储

将声音进行数字化存储,需要经过三个主要步骤:采样、量化、编码

本章的重点是介绍数字音频存储的采样和量化过程。

PCM(Pulse-Code Modulation 脉冲编码调制)

PCM是一个无损无压缩的(相较于有损压缩,如果相对于模拟信号是有损的)数字化编码方式(PCM不单单应用于音频领域,本文只介绍在音频领域中的应用)。

先从PCM讲起是因为PCM是最常用,并且最为简单理解的模拟信号转换成为数字信号的方法。

PCM编码方式是将模拟信号经过采样→量化→编码来实现A/D(数模转换)

采样

采样是从连续时间域上的模拟信号转换到离散时间域上的离散信号的过程

简单来说,声波在时间上本身是连续的,时间可以被分割成无数的时间点,采样就是在这无限的时间点上,以固定周期对时间进行划分。

采样的过程,首先将连续的时间域中以特定时间为单位(通常为1s)分割成数个时间区域(周期性采样)。在对单个时间域中的信号进行特定次数的采样(取决于采样率)。

比如一个时长为4分钟的歌曲,以1s为一个周期,将其分成240个时间区域,并对每一个单独的时间区域进行特定次数采样

采样率

采样率定义了每秒从连续信号中提取并组成离散信号的采样个数,单位为Hz(赫兹)。

下面我们用图文来讲解一下采样率的实际意义

模拟信号状态下的正弦波 (音乐由大大小小以及频率不同的正弦复合而成)

上图是一段音波,其中横坐标代表时间,纵坐标代表声波的幅度

5Hz采样图

假设上图声波长度为1s,那么当采样率为5Hz时,就是在时间轴上将1s平均取5个时间点。

以5Hz采样后的点状图

采样过后,可以发现,因为采样速度极慢,所以采样后的结果无法反映出信号的连续变化,丢失了原始信号中极大部分的数据。所以就会造成音频的失真。

下面我们提升采样率,再来看一下表现。

提升到21Hz的采样率

在增快了采样速度(采样率为21Hz)后,所呈现的信号变化。我们从图中可以看到所呈现的图形已经更加贴近于原始波形了。

经过上述三张图的描述后,可以知道采样率越高时,因为时间点划分更为密集,也就越能还原声音的连续性,在量化后也能也能还原出更为贴近原始的声波。

(从理论上讲,无论采样率有多么高,也无法真实还原模拟信号,因为模拟信号从时间上可以划分为无数个点,也是唱片等模拟音频存储方式依然有不少忠实粉丝的重要原因)

常见场景中的采样率标准及其所能存储的音频频率范围

那么,采样率究竟需要多快才不会造成明显的音频失真呢?

详细的采样定理的推导过程以及证明极其复杂,这里不做深入讲解,有兴趣的可以自行查阅资料,这里只说下结论

采样率必须大于被采样信号带宽的两倍,否则就会发生混叠现象而发生失真

人耳能够感知的声音频率范围在20Hz~20KHz之间,按照上述采样定理,如果需要存储人耳能够感知的声音,就必须以20KHz*2=40KHz以上的频率进行采样。

(所以音乐CD的采样标准为44.1KHz)

量化(位深)

采样是以时间为单位,标识出以每秒多少次划分时间点进行抽样,采样过后依然属于模拟信号范畴,其每个采样点的样本所对应的值仍然为无数个值。 那么如果要以数字化存储这些值,我们就必须对这些值进行量化处理。

以2bit位深进行量化前

如上图,采样是将横坐标的时间轴进行划分 ,量化就是对纵向坐标的值进行划分。上图纵向坐标以2bit深度划分为4个值

(计算机中使用二进制进行存储,1bit只能存储0或1,2bit可以存储00、01、10、11四个值)

2bit位深量化后

以21Hz采样,以2bit进行量化后的声波表现如上图,方便对比将原始声波进行了颜色淡化。可以看到由虚线构成的量化后的波形已经呈现梯子形

因为量化规则遵循四舍五入原则,不正好处于在分级中的样值,均四舍五入后进行存储。那么也就不可避免的会造成数据损失,从而失真。

以4bit位深进行量化

那么我们如果将量化位深提升到4bit,如上图所示,可以发现,当位深越大,越能反映出数据幅度的变化

这种以四舍五入方式进行分级取整,将取值范围内的样值由离散信号描述的无限多的值变为有限个值,并用数字码进行存储的过程称为量化

常见场景标准下的位深

小霸王和红白机游戏的8bitBGM声音,和笔者年纪相差不大的人可能还有印象,虽然失真严重(感觉粗糙)但已经别有风味了

编码

编码本质上就是使用某种特定规范,使得采样量化后的数据按照规定方式进行存储、传输。

因为编码不同国家地区,不同使用场景都有对应的PCM编码标准。并且涉及到数字化电路、电器信号、数学模型等领域的专业知识,本文以及本系列不会对这些深奥的计算原理讲解

我们不需要关心PCM编码最终使用了什么方式,只需要知道PCM编码本身的优缺点即可。

PCM编码本身是无损无压缩的,那么就说明其数据体积会很大。

PCM数据体积计算方式为:采样率(Hz) x 位深(bit) x 声道数 x 时长(s)

一段常见的4分钟立体声(双声道)的音乐,我们以CD标准(44.1KHz采样率 16bit位深)在进行PCM编码后,其体积为

44100Hz x 16bit x 2 x 240 = 338,688,000 bit(比特)= 40.37MB

在计算机存储中最小存储单位为位,而一位能存储的数据即为1bit(存储0或1),其中8bit为一个Byte(字节),1024Byte=1KB,1024KB=1MB

可以看出,存储一段日常常见的歌曲,需要40MB的空间,可以说体积十分巨大了,而我们常见的mp3等格式,存储4分钟的歌曲,仅仅需要4~8MB。这是因为mp3等格式存储的音频,使用了对应特殊的高级编码方式,进一步压缩了PCM数据,这点我们会在下一篇文章中讲解不同格式之间的区别。

总结:采样是在声波的时间上周期抽取数个时间点,量化将对应时间点的声波幅度进行规范存储。采样率越高,位深越高,存储的声波越接近于原始声波。

PCM的音频领域的应用

PCM在音频领域中的应用极其广泛,无论是语音通话、音乐播放、视频多媒体,其中都离不开PCM的应用。

电脑、手机、随身听等设备播放音乐时,其实就是将PCM数据,转换为模拟信号,在通过扬声器、耳机等设备还原出声波。

应用PCM进行声波存储的流程如下

音频存储方式

音频播放流程如下

音频播放方式

DSD(Direct Stream Digital,直接比特流数字编码)

DSD是1996年Sony与Philips联合研究发展的专用于高解析数字音频的编码模式。

通过上述介绍PCM可以得知,如果想要提升声音存储的精度,那么就需要采样和位深都进行提升。那么不可避免的就造成体积的大幅增加。

DSD采样

DSD的采样速率远远高于PCM,基准采样速率为CD标准的64倍,达到2,822.4KHz。

使用快的采样速率也就意味着所记录下来的波形更接近于原始波形。

DSD标准及其采样率

DSD量化

采样速率成倍翻升后,如果还要按照PCM传统的多位量化方式,那么体积也会依据采样率等倍变大。

在PCM中,每一次采样点所量化的数据之间是独立存储毫无关联的。以CD标准来说,哪怕两个采样点之间的变化非常小,每个采样点依然会占用16bit的容量。

DPD使用单比特(1bit)进行采样点量化。首先确定一个Δ值,就是幅度差值。首先采样第一个点,然后采样第二个点,如果采样点2幅度相较于采样点1幅度的差值大于Δ所规定的值。如果是正差(2>1),记录为1。如果是负差(2<1)记录为0。

简单来说,就是依靠0/1来记录相较于上一个采样点是变高了还是变低了。每一个采样点之间值相互关联。从PCM记录的绝对值变成了记录相较值。

DSD中之所以可以用1bit来决定存储幅度变化,得益于DSD规定的超高速采样率,当采样速率过低时,这种量化方式就无法精准的记录下幅度的变化。

DSD的优缺点

优点:

在体积不大幅增加的前提下,大幅提升了音频存储的精度。(相较于同等精度的PCM,体积不会像PCM那么夸张)将幅度量化精度损失控制在Δ以内。降低了PCM高规格下对解码硬件精度的需求

缺点:

相较于PCM,支持DSD解码的设备依然较少DSD的最低标准规格也相当高了,4分钟立体声DSD64标准的歌曲也需要160MB以上的空间不利于网络传输

下一章节 将为您介绍数字音高级编码,有损格式、无损格式之间对比与取舍

此系列会从会从模拟音频介绍到数字音频,常见的音频格式优缺点及使用取舍,再到音箱耳机该如何选购

本人并非专业从事音频相关研究工作,仅仅作为一名普通的音乐听众,开设这个系列的专题也仅仅是出于兴趣。故本文可能有错误、纰漏以及描述不准确的段落出现,请大家谅解并指正。

Audio系列是本人开始发文的第一个系列,后续会逐步开设视频、PC、手机等IT领域杂谈。

标签: #音频数字化计算 #音频数字化过程主要包括哪三个步骤