本页使用了标题或全文手工转换

语音合成

维基百科,自由的百科全书
跳转至: 导航搜索

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現。文字轉語音(text-to-speech,TTS)系統則是將一般語言的文字轉換為語音,其他的系統可以描繪語言符號的表示方式,就像音標轉換至語音一樣。

而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異,若是要儲存phone以及diphone的話,系統必須提供大量的儲存空間,但是在語意上或許會不清楚。而用在特定的使用領域上,儲存整字或整句的方式可以達到高品質的語音輸出。另外,包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出。

一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時,能夠聽到並且在個人電腦上完成工作。從80年代早期開始,許多的電腦作業系統已經包含了語音合成器了。

文字處理的概觀[编辑]

歷史[编辑]

早在17世紀就有法國人研發機械式的說話裝置。[來源請求]直到19世紀,貝爾實驗室對於電子語音合成技術的研究,才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER[1],是一種利用共振峰原理所製作的合成器。 1960年,瑞典語言學家G. Fant則提出利用線性預測編碼技術(LPC)來作為語音合成分析技術,並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA,此技術可以合成比較自然的語音。

合成器技術[编辑]

串接合成[编辑]

單位選擇合成[编辑]

這通常是使用字詞預錄的方式,將各字詞的發音預先錄製好,經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞,再把發音的資料自資料庫中取出,交由DSP去處理發音的合成。

Diphone合成[编辑]

Domain-specific合成[编辑]

共振峰合成[编辑]

發音合成[编辑]

HMM基礎合成[编辑]

正弦波合成[编辑]

專用硬體[编辑]

含有語音合成器的軟體[编辑]

  • 目前已有一套開放原始碼的免費螢幕報讀軟體--NVDA,內建eSpeak語音合成器,方便安裝(可裝在隨身碟上隨插即用),並預設多國語言,可供視障朋友使用。
    另外,台灣工研院資通所語音團隊,則已開發出一套中文語音庫:mTTS (目前最新為uTTS)。此為一套高音質的文字轉語音技術,不但發音較為清楚,而且也更接近人聲,適合視障朋友使用。與NVDA搭配,能使NVDA發揮更好的效果。
  • JAWS(商業付費螢幕報讀軟體
  • 內建於蘋果電腦相關產品的VoiceOver Utility
  • Android 1.6版加入支援語音合成的功能。[2]
  • 微軟在1995年開始,開發了一套en:Microsoft Speech API,微軟的一些作業系統或軟體有提供支援語音功能。
  • VOCALOID
  • 盛大在2012年初,發佈了Android語音合成平臺應用聼聼中心,支持中英文合成及變聲等服務,提供了便捷的語音接口,所有運算在設備端完成,無須聯網,無延時。

語音合成標記語言[编辑]

應用[编辑]

参看[编辑]

參考資料[编辑]

  1. ^ 柳春、于洪志(2008年):《現代教育技術》,第26期第64頁,北京:清華大學電教中心。
  2. ^ Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. 

外部連結[编辑]