语音处理

本页使用了标题或全文手工转换
维基百科,自由的百科全书

这是本页的一个历史版本,由27.52.101.254留言2018年5月21日 (一) 06:03 →‎語音的架構编辑。这可能和当前版本存在着巨大的差异。

为单片机实验服务的语音模块

語音處理(Speech processing),又稱語音訊號處理人聲處理,其目的是希望做出想要的訊號,進一步做語音辨識,應用到手機介面甚至一般生活中,使人與電腦能進行溝通

語音訊號的來源

人聲是由於聲帶震動,而產生聲音。當運動肌肉擠壓,使臟中的空氣通過聲帶時,空氣流動使得聲帶做周期性的震動,又再一次震動了空氣,接著,帶著動能空氣離開氣管到達口腔或鼻腔,在腔室中震動,最後離開在嘴唇傳到人耳變成聲音。

若調整口腔中舌頭的位置,會產生不同種類的聲音,如果舌頭沒有做太多的動作,空氣只有在口腔中共振,接著直接流出嘴唇,會產生母音,若提起舌頭,使口鼻腔相通,則會出現鼻音。

語音訊號分類

從中文發音的觀點來說,聲音仍可分為子音與母音,母音和子音可以用兩種方式區分:

  • 發聲方式:一般而言,母音跟嘴唇形狀有關,而且不與鼻腔共振。相對而言,在發出子音時,就會運用到鼻腔配合發聲。
  • 頻譜分析:從頻譜上觀察可以發現子音的訊號頻率較高,持續時間較短,且會在母音之前出現。而母音的頻率較低,持續時間較長,在子音後或獨立出現,另外,母音的能量也會比子音大。

下面列出中文注音符號中的母音、子音及其拼音。

  • 母音:ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ 一 ㄨ ㄩ
母音
漢語拼音 a o e e ai ei ao ou
通用拼音 a o e e ai ei ao ou
母音
漢語拼音 an en ang eng er i,y u,w yu,ju
通用拼音 an en ang eng er i,y u,w yu,ju
  • 子音:ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
子音
漢語拼音 b p m f d t n
通用拼音 b p m f d t n
子音
漢語拼音 l g k h j q x
通用拼音 l g k h j q x
子音
漢語拼音 zh ch sh r z c s
通用拼音 zh ch sh r z c s

語音的架構

要分析語音訊號前,必須先了解其架構,語音的要素從小到大分別是:音素→音節詞彙→句子→整段話。

音素是聲音的最小單位,例如「呵」這個字的音素,就是「ㄏ」和「ㄜ」,但是音素和注音符號並不相等,例如「鷗」雖然只有「ㄡ」這個母音,但是由於是雙母音,所以會把他拆成兩個音素。音節在中文而言,就是只一個字,例如:「天天開心」就有四個音節。詞彙是文字組成的有意義片段,各種不同的詞彙集結成句子,最後變成整段話,這就是語音的架構。

語音處理方法

用麥克風或其他裝置收到的類音聲音訊號,經由類比數位轉換裝置,將資料數據化進行處理,最後再經過數位類比轉換裝置輸出。因此,我們在處理時是針對數位訊號,語音訊號是一種離散時間訊號。其訊號處理流程如下:

  1. 收取並取樣訊號:利用麥克風或各種收音裝置,收取類比語音訊號,再用ADC裝置(如類比數位轉換卡)把類比訊號變成數位訊號,接著根據奈奎斯特理論作取樣,若不符合理論則會造成訊號失真。
  2. 量化及編碼:由於電腦中的記憶都是0和1,因此要將所收到的數據用一段適合的0跟1去儲存,這個動作就稱為量化,所使用的0與1越多,所需的記憶體越多。接著利用編碼器將數值以波形呈現,因此雖然是數位訊號,但是在電腦中所見到的是類比。
  3. 訊號標準化:將語音訊號標準化,使其數值都落在同一個範圍。
  4. 音框選擇:由於語音訊號是一段很長的訊號,因此會針對想要處理的部分取音框。
  5. 端點偵測:端點偵測的目的是使訊號處理的範圍更精確,只要設定一個音量閾值,若訊號小於閾值,則將其視為沒訊號,但是若雜訊過高,則會產生誤差。
  6. 去雜訊:由於雜訊多集中在高頻的部分,因此利用簡單的高頻濾波器,就可以去掉部分雜訊。

基本處理方法

語音訊號是屬於離散時間系統,因此會用離散時間的傅立葉轉換去做處理,除此之外,摺積窗函數都是一定會使用到的處理方法。

  • 離散時間傅立葉轉換:
  • 摺積:

兩訊號做convolution等於,兩訊號先做傅立葉轉換,相乘後再做反傅立葉轉換,藉此可以更快速的處理訊號。

語音處理的應用

語音處理主要有兩個目的:

  • 減少訊號雜訊,做出想要的訊號模組。
  • 進行語音辨識,使人可以利用語言與電腦溝通。

參見

參考文獻