语音处理

語音處理（Speech processing），又稱語音訊號處理、人聲處理，其目的是希望做出想要的訊號，進一步做語音辨識，應用到手機介面甚至一般生活中，使人與電腦能進行溝通。

語音訊號的來源

人聲是由於聲帶震動，而產生聲音。當運動肌肉擠壓，使肺臟中的空氣通過聲帶時，空氣流動使得聲帶做周期性的震動，又再一次震動了空氣，接著，帶著動能的空氣離開氣管到達口腔或鼻腔，在腔室中震動，最後離開在嘴唇傳到人耳變成聲音。

若調整口腔中舌頭的位置，會產生不同種類的聲音，如果舌頭沒有做太多的動作，空氣只有在口腔中共振，接著直接流出嘴唇，會產生母音，若提起舌頭，使口鼻腔相通，則會出現鼻音。

語音訊號分類

從中文發音的觀點來說，聲音仍可分為子音與母音，母音和子音可以用兩種方式區分：

發聲方式：一般而言，母音跟嘴唇形狀有關，而且不與鼻腔共振。相對而言，在發出子音時，就會運用到鼻腔配合發聲。
頻譜分析：從頻譜上觀察可以發現子音的訊號頻率較高，持續時間較短，且會在母音之前出現。而母音的頻率較低，持續時間較長，在子音後或獨立出現，另外，母音的能量也會比子音大。

下面列出中文注音符號中的母音、子音及其拼音。

母音：ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ一ㄨㄩ

母音	ㄚ	ㄛ	ㄜ	ㄝ	ㄞ	ㄟ	ㄠ	ㄡ
漢語拼音	a	o	e	e	ai	ei	ao	ou
通用拼音	a	o	e	e	ai	ei	ao	ou
母音	ㄢ	ㄣ	ㄤ	ㄥ	ㄦ	一	ㄨ	ㄩ
漢語拼音	an	en	ang	eng	er	i,y	u,w	yu,ju
通用拼音	an	en	ang	eng	er	i,y	u,w	yu,ju

子音：ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ

子音	ㄅ	ㄆ	ㄇ	ㄈ	ㄉ	ㄊ	ㄋ
漢語拼音	b	p	m	f	d	t	n
通用拼音	b	p	m	f	d	t	n
子音	ㄌ	ㄍ	ㄎ	ㄏ	ㄐ	ㄑ	ㄒ
漢語拼音	l	g	k	h	j	q	x
通用拼音	l	g	k	h	j	q	x
子音	ㄓ	ㄔ	ㄕ	ㄖ	ㄗ	ㄘ	ㄙ
漢語拼音	zh	ch	sh	r	z	c	s
通用拼音	zh	ch	sh	r	z	c	s

語音的架構

要分析語音訊號前，必須先了解其架構，語音的要素從小到大分別是：音素→音節→詞彙→句子→整段話。

音素是聲音的最小單位，例如「呵」這個字的音素，就是「ㄏ」和「ㄜ」，但是音素和注音符號並不相等，例如「鷗」雖然只有「ㄡ」這個母音，但是由於是雙母音，所以會把他拆成兩個音素。音節在中文而言，就是只一個字，例如：「天天開心」就有四個音節。詞彙是文字組成的有意義片段，各種不同的詞彙集結成句子，最後變成整段話，這就是語音的架構。

語音處理方法

用麥克風或其他裝置收到的類音聲音訊號，經由類比數位轉換裝置，將資料數據化進行處理，最後再經過數位類比轉換裝置輸出。因此，我們在處理時是針對數位訊號，語音訊號是一種離散時間訊號。其訊號處理流程如下：

收取並取樣訊號：利用麥克風或各種收音裝置，收取類比語音訊號，再用ADC裝置(如類比數位轉換卡)把類比訊號變成數位訊號，接著根據奈奎斯特理論作取樣，若不符合理論則會造成訊號失真。
量化及編碼：由於電腦中的記憶都是0和1，因此要將所收到的數據用一段適合的0跟1去儲存，這個動作就稱為量化，所使用的0與1越多，所需的記憶體越多。接著利用編碼器將數值以波形呈現，因此雖然是數位訊號，但是在電腦中所見到的是類比。
訊號標準化：將語音訊號標準化，使其數值都落在同一個範圍。
音框選擇：由於語音訊號是一段很長的訊號，因此會針對想要處理的部分取音框。
端點偵測：端點偵測的目的是使訊號處理的範圍更精確，只要設定一個音量閾值，若訊號小於閾值，則將其視為沒訊號，但是若雜訊過高，則會產生誤差。
去雜訊：由於雜訊多集中在高頻的部分，因此利用簡單的高頻濾波器，就可以去掉部分雜訊。

基本處理方法

語音訊號是屬於離散時間系統，因此會用離散時間的傅立葉轉換去做處理，除此之外，摺積、窗函數都是一定會使用到的處理方法。

離散時間傅立葉轉換：

x[n]={\frac {1}{2\pi }}\int \limits _{-\pi }^{\pi }X(\omega )e^{-j\omega n}\,d\omega .

X(\omega )=\sum _{k=0}^{N-1}x[n]e^{-j\omega n}

摺積：

兩訊號做convolution等於，兩訊號先做傅立葉轉換，相乘後再做反傅立葉轉換，藉此可以更快速的處理訊號。

{\mathcal {F}}\{h*x\}={\mathcal {F}}\{h\}\cdot {\mathcal {F}}\{x\}

語音處理的應用

語音處理主要有兩個目的：

減少訊號雜訊，做出想要的訊號模組。
進行語音辨識，使人可以利用語言與電腦溝通。

參見

語音識別

參考文獻

J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3-540-49125-5.
J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3-540-24039-6.