音频信号处理

音频信号处理，又称音频处理，音乐信号处理（英语：Audio signal processing）等，用来调整音乐信号的振幅、频率、波形等信息。利用某些四则运算，升降频，及窗函数，就可以处理出各式各样的声音频号。

透过一些信号处理的技巧，可以从声音频号获取背后所代表的频率高低，做更进一步的分析与应用。

音频的来源

声音频号是一种力学波，因此在传播过程中是一种模拟连续的信号，然而由于人耳是天然的傅里叶变换器，因此音频经过人耳后会变成数码信号。在这些信号中，有三个特征是处理时经常考虑的部分，可以参考下图：

音量：从信号来看，音量代表的是信号的振幅，信号振幅越大，所发出的音量也越大。
音频：信号的频率，就是所谓的音频，也就是声音震动的频率。其代表的是音调的高低，频率越高，音调就越高。除此之外，乐器所产生的声音频号，并非是单一频率的信号，而是有基带和泛音（倍频）的存在。
音色：每一个人或乐器所发出的音色都不一样，从信号上来看，音色就是信号的波形，因此只要利用波形分析，就可以判断出声音的来源，从下图可以看到小提琴跟钢琴的音色差异非常大。

音频的三个特征：音量、音频、音色。

音频的文件存储可以分成压缩和无压缩两种，常见的无压缩档案格式为*.wav，而压缩档案格式为*.mp3，关于这一部分的详细资料可以引用音频档案格式。声音档的存取时，主要有三个需要考虑因素：

采样率：在信号处理中，采样率所代表的是声音的质量，采样的频率越高，数码信号的波形越接近模拟信号的波形，因此声音的质量也越好。而在做采样时，必须遵守奈奎斯特频率，简单来说，频率在采样时至少要大于原信号频率的2倍，才可以得到有意义的信号，也能还原成原本的信号。
声音分辨率：存取信号资料点所用的位元数，即代表其分辨率。所使用的位元数越大，每个资料点的数值就越精确，声音的分辨率也越好。比较16bit与8bit两种存取位元，16bit可以存取到较精确的数值，但是也会花比较大的硬件存储空间。
声道：声道就是声音的来源数，常听到的单声道及双声道，代表的是声音是否有立体感。利用两个喇叭，拨放单声道的声音，左右两个喇叭发出的声音完全相同，因此会感觉声音是来自两个喇叭中间，但若是双声道声音，左右两个喇叭发出的声音会有一定差异，因此会觉得声音听起来有立体感。

执行MATLAB函数：audioinfo(音频档案名称)

由于声音频号是一段长时间的信号，因此在处理时必须要分段进行，在处理之前会先开一个范围，选择出想要处理的部分，再针对范围内的部分做处理，声音信息主要包含：响度、音色和音高，三个部分，也是最常处理的部分。

响度控制：音量是一种相对信号，在信号中代表得是振幅，其计算方式是将范围内的信号取平方相加，在以10为底取log，单位是分贝（dB）如下公式： $Amplitude(dB)=10log_{10}\sum _{k=1}^{N}k^{2}$ $Amplitude(dB)=10log_{10}\sum _{k=1}^{N}k^{2}$ 但是，在对人耳来说，音量是一种主观的感受，根据佛莱彻森曲线（Fletcher-Munson Curve），在不同频率之下，人耳要听到声音的话，对音量有一个最低要求，如下图所示。反过来说，虽然声音频号的振幅相同，但是因为频率高低不同，对人耳的感受大小也会不同，相同声音强度，耳朵对低频的感受度较差，对3000Hz左右的声音感受度最高，越往高频又会慢慢降低。调整音量最简单的方式就是用加减法，首先把要处理的范围框出来，接着计算出振幅大小，最后再减掉想要减少的振幅强度，就可以降低音量，反之用加法就可以增强区域的音量。

在不同频率之下，人耳对声音的敏感度会有所不同。

音频控制：音频是声音频号处理的核心部分，最常用的简单处理方式是增频和降频。音频代表得是信号的音高，中音Do的频率约在262Hz，在音乐中，有C（Do），#C（#Do,♭Re），D（Re），#D（#Re,♭Mi），E（Mi,♭Fa），F（Fa），#F（#Fa,♭Sol），G（Sol），#G（#Sol,♭La），A（La），#A（#La,♭Si），B（Si），12个特定的音阶，每差12个音阶，频率会变为原来的两倍，其频率设置是以440Hz为标准音频，做进一步数学推算，其频率为440乘上2的n/12次方，其中n是上面列出的第几个音阶。音频的处理最常用的是升频和降频，先选出想要处理的区域，接着做升降频的动作，这其中必须要注意奈奎斯特理论，避免信号失真。 frequency = 2^n/12 * 440
频率分析：透过离散傅里叶变换（Discrete Fourier Transform），通常简称为DFT，可以将一段声音频号变换成其各个频率的正弦波分量，方便做更进一步的分析、运算。下图是将频率为440Hz的正弦波信号，借由MATLAB function: fft，可以得到信号组成频率的分量，从图上可以看到在440Hz的地方有特别大的值。

音色：每一组声音频号的波形都不一样，其物理意义是音色，因此如果改变波形的变化，就可以产生出音色类似的声音，处理波形最简单的方法就是用窗函数(window function)，利用既有或自制的窗函数，将信号做简单的卷积运算就可以改变信号的波形，创造出不同的音色。
倍频：通常音乐的信号不是单一频率的信号，而是由基带，以及其泛音(基带的整数倍，倍频)所组成，因此若自制电子音乐时，必须注意倍频对声音饱和度产生的影响。下图将音乐信号经过频率分析后，可以看到除了在 $f_{0}=330Hz$ $f_{0}=330Hz$ 左右的基带外，在 $2f_{0}$ $2f_{0}$ 、 $3f_{0}$ $3f_{0}$ 的部分也会有较大的分量。