位深度 (音频)
在数位音讯与脉冲编码调变(英语:PCM)中,音讯位元深度(英语:audio bit depth)是指每次取样储存着多少位元(英语:bit)的资讯,数值直接对应着每次取样的解析度。比如,数位音乐光碟采用16位元储存取样,则每个取样点可以储存65,536(216)种可能振幅值之一;DVD-A与蓝光光碟则最高可支援24位元,即每个取样点最多可以储存16,777,216(224)种可能振幅值之一。[1]
在一些基本执行实例中,位元深度的变化主要影响由量化误差引起的量化杂讯水平,比如说讯噪比(英语:SNR)和动态范围。不过,抖动、过采样、杂讯整型等技术也能够减轻上述影响,同时维持位元深度不变。另外,位元深度还会影响位元速率和档案大小。
位元深度仅对PCM数位化讯号有意义,而有损数据压缩格式等非PCM格式并无“位元深度”一说。[2][3]
二进位表示
[编辑]PCM讯号是一段数位音讯取样值序列,它所包含的资料可为重建原始类比讯号提供必要资讯。在序列中,所有取样值在时间上间隔均匀,各自代表讯号在对应时间点上的振幅。振幅是每个取样点所精确存储的唯一资讯,其储存形式通常是整数或浮点数形式,但会编码成具有固定位数的二进位数。该二进位数之位数就是取样的位元深度(英语:bit depth),也称作字长(英语:word length)或者字大小(英语:word size)。
取样值的解析度是指:由原始类比讯号所含所有振幅值所构成的连续分布范围内,有多少离散值能够为取样值所表示。在整数取样PCM音讯中,取样值通常以有符二补数形式储存,[4]以二进位整数表示的解析度会随著字长增加而呈指数增长,字长每增加一位元,解析度即翻一倍。若位元深度以十进位整数形式表示为n,则取样值能够表示的可能振幅值数量为2n。[5]例如,若位元深度为16,则解析度为65,536(216)。
许多音讯档案格式以及数位声讯工作站(英语:DAW)现在也支援以浮点数表示取样的PCM格式,[6][7][8][9]比如WAV与AIF。[10][11]整数的位元模式是单一的比特系列,而浮点则与之不同,其数值表示是由单独而互相构成数学关系的栏位构成的。最常见的浮点数标准是IEEE 754,在该标准中,数字由表示符号正负的符号位、指数以及由指数代表位移的尾数组成,其中尾数在IEEE二进位格式中是以二进位分数表示的。[12]
量化
[编辑]在重建出的讯号中,讯杂比最大值受限于取样位元深度,并取决于量化误差值。频率响应则受限于取样率而与位元深度无关。
由类比至数位转换(英语:ADC)导致的量化误差,是来自ADC的类比电压输入值与完成数位化的输出值之间的舍入误差,透过塑模可成为量化杂讯。这种杂讯非线性,并与讯号本身相关。
在理想状态下,类比至数位转换的量化误差会均匀分布在最低有效位(英语:LSB)±½倍范围内,并且讯号会有覆盖所有量化阶的均匀分布。信号量化杂讯比(英语:SQNR)可通过下式计算:
此处的Q为讯号的量化位元数,解果以分贝(英语:dB)为单位。[13]
由此可知,CD上的16位元数位音讯的最大理论讯噪比为96分贝,而专业的24位元数位音讯的最大理论讯噪比可至144分贝。至2011为止,由于积体电路的实际设计限制,数位音讯转换器的讯噪比大约只能达到123分贝,[14][15][16]也就是相当于有效21位元,不过这也与人类的听觉系统能力相近。[17][18]虽然说也有售卖的32位元转换器,但这些基本纯粹是营销产物,和24位转换器比起来没有任何实际好处,那些多出来的位元要么一直是0,要么只能编码噪声。[19][20]另外也可以用多个转换器覆盖处理同一讯号的不同范围,如此一来就可以在讯号的长期范围纪录更大的动态范围,这种技术称作动态范围拓展,不过这仍在短期范围会有受限于单个转换器动态范围的问题。[21][22]
位元深度 | 讯噪比 | 整数取值总数(单个采样点) | 有符十进位取值范围(单个采样点) |
---|---|---|---|
4 | 24.08 dB | 16 | −8至+7 |
8 | 48.16 dB | 256 | −128至+127 |
11 | 66.22 dB | 2,048 | −1,024至+1,023 |
12 | 72.24 dB | 4,096 | −2,048至+2,047 |
16 | 96.33 dB | 65,536 | −32,768至+32,767 |
18 | 108.37 dB | 262,144 | −131,072至+131,071 |
20 | 120.41 dB | 1,048,576 | −524,288至+524,287 |
24 | 144.49 dB | 16,777,216 | −8,388,608至+8,388,607 |
32 | 192.66 dB | 4,294,967,296 | −2,147,483,648至+2,147,483,647 |
48 | 288.99 dB | 281,474,976,710,656 | −140,737,488,355,328至+140,737,488,355,327 |
64 | 385.32 dB | 18,446,744,073,709,551,616 | −9,223,372,036,854,775,808至+9,223,372,036,854,775,807 |
浮点数
[编辑]在浮点数取样中,位元深度与解析度的关系并不像在整数取样中那般简单。浮点数取值间隔并不均匀,相邻二值之间隔与取值本身成比例。这一特点令其讯噪比远远高于整数取样体系,因为同一段讯号无论位准高低都具有相同精度。[23]
尽管如此,浮点数取样相比之下也有另一方面劣势:对于相同位元深度,在取值很大的情形下,相邻浮点数比相邻整数间隔更大。因此,浮点数取值越大,舍入误差便越大。而整数无论取值大小,舍入误差值始终维持在相同程度。换言之,整数无论大小,数值修约结果始终不外于最低有效位取0或1;而浮点数无论大小,讯噪比始终不变,量化杂讯位准始终与讯号位准成一定比例,随讯号位准升降而升降。[23]如果位元深度足够低,量化杂讯位准之不同便能够为人耳所辨别。[24]
音讯处理
[编辑]正如类比至数位讯号转换这一步会引入量化误差,大多数处理数位音讯的运算涉及重新量化取样,从而引入更多舍入误差。在数位至类比转换过程中,若要避免舍入误差大于既有误差,运算所涉计算步骤必须满足更高精确度要求。[25]
无论是定点数抑或浮点数运算,数字信号处理都能满足相应精度要求,但每一步运算的精度取决于所用硬体的运算精度,而不是输入资料的解析度。例如x86处理器会采用单精度或双精度执行浮点运算,以及采用16、32及64位元解析度执行定点运算,因此无论来源格式为何,所有用到英特尔处理器的处理工序都必然受到上述精度限制。
由定点数数位讯号处理器通常支援特定字长,从而支援特定的讯号解析度。例如摩托罗拉56000采用24位元乘法器以及56位元累加器,因而能够对两段取样执行乘积累加运算并且免受溢位以及截断影响。[26]如果没有高规格累加器,定点运算的结果可能受到截断影响,从而精度较低。[27]卷积这类用到重复处理的演算法以及无限冲激响应滤波器这类递归演算法对精度要求更高。[25][28]尤其在无限冲激响应滤波器当中,舍入误差会导致频率响应表现欠佳、稳定性降低。[25]
颤动讯号
[编辑]在音讯处理流程当中,包括舍入误差及精度损失在内的量化误差会引入杂讯。若要减轻杂讯影响,可在量化前的讯号上加入颤动讯号(英语:dither),即加入少量随机杂讯。颤动能够消除非线性量化误差所致影响,导致失真程度极低,代价则是杂讯基底(英语:noise floor)会稍微放大。在ITU-R 468杂讯加权(英语:noise weighting)标准之下,16位元数位音讯的颤动讯号推荐值为以校准位准(英语:alignment level)减去约66分贝处,或是以数位满格(英语:full scale)位准减去84分贝处。该值与麦克风底噪、录音室噪声值相当,在16位元音讯当中不足为虑。
对24位元音讯而言,数位转换器内的杂讯位准永远高于颤动讯号位准的必要值,因此无需使用颤动讯号。理论上,24位元音讯经编码可取得144分贝的动态范围,但根据各厂商产品型录,目前没有任何类比数位转换器动态范围能够做到大于125分贝左右。
颤动讯号也可以用于增大有效动态范围。对于16位元音讯,若利用人耳的频率响应特征,对颤动讯号执行杂讯整型再加诸于音讯,则其主观动态范围可达至少120分贝。
动态范围及动态宽限
[编辑]信号动态范围是指系统能够录入或再现的信号振幅值当中最大值与最小值之比。若无颤动讯号,则动态范围与量化杂讯基底相关,例如16位元整数体系取样动态范围可达96 dB左右。数位音讯系统适当采用颤动讯号,可突破解析度对最低讯号位准的限制,增大有效动态范围。[29]过采样及杂讯整型等手段可除去重要频段内量化误差,进一步增大动态范围。
若一段讯号的最高位准未达到其位元深度对最高讯号位准的规定值,该段音讯便具备宽限(英语:headroom)。录音期间采用较高位元深度,可维持动态范围不变而同时留出宽限,在不增加量化误差的同时令低音量区域降幅(英语:clipping)风险降低。
超取样
[编辑]若要在PCM音讯当中维持位元深度不变而增大动态范围,超取样也是一种方法。[30]超取样即以数倍于期望值的取样率取得取样值。假设量化误差均匀分布于各频段,超取样以后其中一大部分将移位到超音波频段,播放音讯期间能够由数位类比转换器滤除。
若要借由超取样将位元深度提升位元,则取样率需要增加至 倍。
例如,一台14位元类比数位转换器若要将位元深度提升2位元,产生16位元、48 kHz数位音讯,则需执行16()倍超取样,取样率为768 kHz()。因此,超取样在PCM音讯当中以更高取样率为代价,换得“以单一取样值更低位元数维持解析度不变”这一优势。
若要提高动态范围,但不在源讯号数位化期间执行超取样,也可以在讯号重建阶段执行。比如在16倍超取样当中,对于原始讯号每一取样点,数位重建滤波器(英语:reconstruction filter)都要计算得到16个新取样点以取代,因此每次取样结果都独一无二。如前文所述,有效位元深度增大的原理不在于减弱量化杂讯,而在于将杂讯频谱分散到音讯频宽的16倍。
历史上,CD标准是由Sony与飞利浦共同开发制定。在各自首款CD播放机上,Sony CDP-101采用16位元DAC,而飞利浦CD100仅采用14位元双DAC。当时市场方面以至业界都有许多人士对此感到不解,原因是16位元PCM讯杂比可达96分贝,而14位元PCM仅能达到84分贝,较前者少12分贝。实际上,飞利浦是将4倍超取样与一阶杂讯整型(英语:first-order noise shaping)相结合,理论上能实现96分贝动态范围,与CD格式标准一致。[31]在实际应用当中,飞利浦CD100在20 Hz至20 kHz频段上实测讯杂比为90分贝,表现与Sony CDP-101相同。[32][33]
杂讯整型
[编辑]采用超取样处理讯号,则量化杂讯大小在所有频段上都相同,动态范围增大倍数与超取样率(英语:oversampling ratio)之平方根成正比。而杂讯整型是在较高频段加入额外杂讯以抵消较低频段一些杂讯,以令超取样动态范围增幅更大的一种手段。n阶杂讯整型(英语:nth-order noise shaping,是指超取样后能令动态范围较一般超取样处理多6n分贝的杂讯整型。[34]譬如,对20 kHz类比音讯执行4倍超取样,再结合二阶杂讯整型,便能将动态范围提升30分贝。由此可知,对16位元讯号执行176 kHz取样,位元深度等于对21位元讯号执行44.1 kHz无杂讯整型取样。
参考资料
[编辑]- ^ Trier, Author Stephen. Choosing a high-performance audio ADC. Skywired.net. 2011-09-14 [2021-12-29]. (原始内容存档于2022-03-31) (美国英语).
- ^ Montgomery, Chris. 24/192 Music Downloads ...and why they make no sense. xiph.org. 2012-03-25 [2013-05-26]. (原始内容存档于July 2013-07-07) (英语).
With use of shaped dither, which moves quantization noise energy into frequencies where it's harder to hear, the effective dynamic range of 16 bit audio reaches 120dB in practice, more than fifteen times deeper than the 96dB claim. 120dB is greater than the difference between a mosquito somewhere in the same room and a jackhammer a foot away.... or the difference between a deserted 'soundproof' room and a sound loud enough to cause hearing damage in seconds. 16 bits is enough to store all we can hear, and will be enough forever.
- ^ Stuart, J. Robert. Coding High Quality Digital Audio (PDF). Meridian Audio Ltd. 1997 [2016-02-25]. (原始内容 (PDF)存档于2016-04-07) (英语).
One of the great discoveries in PCM was that, by adding a small random noise (that we call dither) the truncation effect can disappear. Even more important was the realisation that there is a right sort of random noise to add, and that when the right dither is used, the resolution of the digital system becomes infinite.
- ^ Pulse Code Modulation (PCM). ccrma.stanford.edu. [2021-12-29]. (原始内容存档于2022-03-31).
- ^ Thompson, Daniel M. Understanding audio : getting the most out of your project or professional recording studio. Boston, Mass.: Berklee Press. 2005. ISBN 0-634-00959-1. OCLC 58450656.
- ^ Campbell, Robert. Pro Tools 10 : advanced music production techniques. Boston, MA: Course Technology PTR. 2013. ISBN 978-1-133-72801-6. OCLC 812179989.
- ^ Avid Pro Tools 10. www.soundonsound.com. [2021-12-29]. (原始内容存档于2022-01-01).
- ^ Reason Mixing Masterclass. www.soundonsound.com. [2021-12-29]. (原始内容存档于2022-01-01).
- ^ Audio Fact Sheet — Ableton Reference Manual Version 11 | Ableton. www.ableton.com. [2021-12-29]. (原始内容存档于2022-07-16) (英语).
- ^ Wave File Specifications. www-mmsp.ece.mcgill.ca. [2021-12-29]. (原始内容存档于2010-03-25).
- ^ AIFF / AIFC Sound File Specifications. www-mmsp.ece.mcgill.ca. [2021-12-29]. (原始内容存档于2021-03-09).
- ^ Floating Point (Real Numbers). www.dspguide.com. [2021-12-29]. (原始内容存档于2021-07-30).
- ^ Kester, Walt. Taking the Mystery out of the Infamous Formula, "SNR = 6.02N + 1.76dB," and Why You Should Care (PDF). Analog Devices. 2007 [2021-12-29]. (原始内容存档 (PDF)于2011-06-16).
- ^ Nwavguy. NwAvGuy: Noise & Dynamic Range. NwAvGuy. 2011-09-06 [2021-12-29]. (原始内容存档于2022-04-12).
- ^ PCM4222. [2021-12-29]. (原始内容存档于2011-06-23).
Dynamic Range (–60dB input, A-weighted): 124dB typical Dynamic Range (–60dB input, 20 kHz Bandwidth): 122dB typical
- ^ WM8741 | Cirrus Logic. master-nq.webp2.cirrus.com. [2021-12-29]. (原始内容存档于2022-03-02).
- ^ D. R. Campbell. Aspects of Human Hearing (PDF). [2011-04-21]. (原始内容 (PDF)存档于2011-08-21).
The dynamic range of human hearing is [approximately] 120 dB
- ^ Sensitivity of Human Ear. hyperphysics.phy-astr.gsu.edu. [2021-12-29]. (原始内容存档于2011-06-04).
- ^ The great audio myth: why you don’t need that 32-bit DAC. Android Authority. 2016-01-19 [2021-12-29]. (原始内容存档于2022-07-09).
- ^ 32-bit capable DACs. hydrogenaud.io. [2021-12-29]. (原始内容存档于2022-03-31).
- ^ US6317065B1,Raleigh, Gregory G. & Vincent K. Jones,“Multiple A to D converters for enhanced dynamic range”
- ^ Christodoulou, Lakis; Lane, John; Kasparis, Takis. Dynamic range extension using multiple A/D converters. 2010 4th International Symposium on Communications, Control and Signal Processing (ISCCSP). 2010-03-01: 1–4. ISBN 978-1-4244-6285-8. S2CID 16501096. doi:10.1109/ISCCSP.2010.5463427.
- ^ 23.0 23.1 Fixed versus Floating Point. www.dspguide.com. [2021-12-29]. (原始内容存档于2021-09-07).
- ^ Moorer, James. 48-Bit Integer Processing Beats 32-Bit Floating-Point for Professional Audio Applications (PDF). www.jamminpower.com. 1999-09 [2013-08-12]. (原始内容存档 (PDF)于2019-02-14).
- ^ 25.0 25.1 25.2 Tomarakos, John. Relationship of Data Word Size to Dynamic Range and Signal Quality in Digital Audio Processing Applications. www.analog.com. 亚德诺半导体. [2021-12-29]. (原始内容存档于2015-02-12) (英语).
- ^ NXP® Semiconductors Official Site | Home. www.nxp.com. [2021-12-29]. (原始内容存档于2021-03-22).
- ^ The Scientist and Engineer's Guide to Digital Signal Processing, Chapter 4 – DSP Software / Number Precision. www.dspguide.com. [2021-12-29]. (原始内容存档于2022-03-31).
- ^ Carletta, Joan. Determining Appropriate Precisions for Signals in Fixed-Point IIR Filters. DAC. 2003. CiteSeerX 10.1.1.92.1266 .
- ^ Dithering in Analog-to-Digital Conversion (PDF). e2v Semiconductors. 2007 [2011-07-26]. (原始内容 (PDF)存档于2011-10-04).
- ^ Kester, Walt. Oversampling Interpolating DACs (PDF). Analog Devices. [2013-08-19]. (原始内容 (PDF)存档于2012-05-19).
- ^ Philips Research. Philips. [2021-12-29] (英语).
- ^ Philips CD100 Stereo Compact Disc Player Manual | HiFi Engine. www.hifiengine.com. [2021-12-29]. (原始内容存档于2022-01-01).
- ^ Sony CDP-101 Stereo Compact Disc Player Manual | HiFi Engine. www.hifiengine.com. [2021-12-29]. (原始内容存档于2022-01-01).
- ^ B.1 First and Second-Order Noise Shaping Loops. www.iue.tuwien.ac.at. [2021-12-29]. (原始内容存档于2022-01-01).