跳至內容

聲紋辨識

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

聲紋辨識Acoustic fingerprint)是通過特定演算法從音頻訊號中提取的一段數字摘要,用於辨識聲音樣本或者快速定位音頻資料庫中的相似音頻。

音頻壓縮技術的進步以及大容量記憶體的出現使得互聯網上出現了以音樂為主的海量音頻資訊,手工選取某首歌曲很多時候已經變得不可能,這直接促使產生了可以進行音樂自動辨識的數字音頻指紋技術。

應用

[編輯]

聲紋辨識的實踐應用包括:辨識歌曲記錄旋律音調廣告廣播監控對等網絡監控;聲效庫管理;影片檔案辨識,甚至更多。

屬性

[編輯]

音頻指紋是指可以代表一段音樂重要聲學特徵的基於內容的緊緻數碼簽章,其主要目的是建立一種有效機制來比較兩個音頻數據的感知聽覺質素。注意這裏不是直接比較通常很大的音頻數據本身,而是比較其相應通常較小的數字指紋。大量音頻數據的指紋和其相應的元數據比如歌曲名稱、詞曲作者、歌詞等內容一起儲存在一個資料庫中,並採用指紋作為相應元數據的索引。

一個音頻指紋系統通常包括兩個部分:即一個計算聽覺重要特徵的指紋提取演算法和一個在指紋資料庫中進行有效搜尋的比對演算法。當要辨識一段未知音頻時,首先按照指紋提取演算法計算其音頻特徵,然後和資料庫中儲存的大量音頻指紋相比對從而進行辨識。一個有效的指紋提取演算法和指紋比對演算法能夠在資料庫中正確辨識出可能經受各種訊號處理失真的未知音頻的原始版本。若辨識到對應的原始指紋,則可提取出相應的元數據資訊返回給用戶。

一個健壯的聲紋辨識辨識演算法必須考慮到聲音的感知特性。如果兩段音頻檔人們聽起來是一樣的,即便它們的二進制表示形式不一樣,它們的聲紋辨識也應該是相同的或者非常相似的。(因此,聲紋辨識從嚴格意義上講並不屬於——真正的指紋——必須能夠區分數據上任何細小的差別。)

不同的音頻壓縮技術(包括:MP3WMAVorbis等)在對音頻檔的二進制編碼方式上雖然有較大差別,但是卻不影響音頻檔播放的效果。健壯的聲紋辨識辨識演算法應該能夠正確的辨識出經過壓縮的音頻檔,甚至在音頻質素有明顯下降的情況下也能夠正確辨識。在用於廣播監控時,聲紋辨識辨識演算法還應能忽略模擬傳輸對音頻造成影響。

另一方面,優秀的聲紋辨識辨識演算法能夠在眾多音頻記錄中辨識出特殊的主記錄。在用於法庭證物時,聲紋辨識必須保證其準確性。

實現

[編輯]
  • Midomi,利用上載用戶哼出的或錄製的樂曲片段搜尋對應的音樂曲目。
  • Shazam