語言模型

維基百科,自由的百科全書
跳至導覽 跳至搜尋

統計式的語言模型是一個機率分布,給定一個長度為 的字詞所組成的字串 ,派機率給字串:

語言模型提供上下文來區分聽起來相似的單詞和短語。例如,短語「再給我兩份蔥,讓我把記憶煎成餅」和「再給我兩分鐘,讓我把記憶結成冰」聽起來相似,但意思不同。

語言模型經常使用在許多自然語言處理方面的應用,如語音識別[1]機器翻譯[2],詞性標註,句法分析[3],手寫體識別[4]資訊檢索。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n-元語法(N-gram)模型之原因。

語音辨識和在資料壓縮的領域中,這種模式試圖捕捉語言的特性,並預測在語音串列中的下一個字。

在語音識別中,聲音與單詞序列相匹配。當來自語言模型的證據與發音模型和聲學模型相結合時,歧義更容易解決。

當用於資訊檢索,語言模型是與文件有關的集合。以查詢字「Q」作為輸入,依據機率將文件作排序,而該機率代表該文件的語言模型所產生的語句之機率。

模型類型[編輯]

單元語法(unigram)[編輯]

一個單元模型可以看作是幾個單狀態有限自動機的組合[5]。 它會分開上下文中不同術語的概率, 比如將 拆分為.

在這個模型中,每個單詞的概率只取決於該單詞在文檔中的概率,所以我們只有一個狀態有限自動機作為單位。自動機本身在模型的整個詞彙表中有一個概率分布,總和為1。下面是一個文檔的單元模型。

單詞 term 在文檔 doc 中的概率
a 0.1
world 0.2
likes 0.05
we 0.05
share 0.3
... ...

為特定查詢(query)生成的概率計算如下

不同的文檔有不同的語法模型,其中單詞的命中率也不同。不同文檔的概率分布用於為每個查詢生成命中概率。可以根據概率對查詢的文檔進行排序。兩個文檔的單元模型示例:

單詞 在Doc1的概率 在Doc2中的概率
a 0.1 0.3
world 0.2 0.1
likes 0.05 0.03
we 0.05 0.02
share 0.3 0.2
... ... ...

在信息檢索環境中,通常會對單語法語言模型進行平滑處理,以避免出現P(term)= 0的情況。一種常見的方法是為整個集合生成最大似然模型,並用每個文檔的最大似然模型對集合模型進行線性插值來平滑化模型。[6]

n-元語法[編輯]

在一個 n-元語法模型中,觀測到序列 的概率 可以被近似為

此處我們引入馬爾科夫假設,一個詞的出現並不與這個句子前面的所有詞關聯,只與這個詞前的 n 個詞關聯(n階馬爾科夫性質)。在已觀測到 i-1 個詞的情況中,觀測到第i個詞 wi 的概率,可以被近似為,觀測到第i個詞前面n個詞(第 i-(n-1) 個詞到第 i-1 個詞)的情況下,觀測到第i個詞的概率。第 i 個詞前 n 個詞可以被稱為 n-元。

條件概率可以從n-元語法模型頻率計數中計算:

術語 二元語法(bigram) 和三元語法(trigram) 語言模型表示 n = 2 和 n = 3 的 n-元 [7]

典型地,n-元語法模型概率不是直接從頻率計數中導出的,因為以這種方式導出的模型在面對任何之前沒有明確看到的n-元時會有嚴重的問題。相反,某種形式的平滑是必要的,將一些總概率質量分配給看不見的單詞或n-元。使用了各種方法,從簡單的「加一」平滑(將計數1分配給看不見的n-元,作為一個無信息的先驗)到更複雜的模型,例如Good-Turing discounting英語Good-Turing discountingback-off 模型英語back-off model

例子[編輯]

在二元語法模型中 (n = 2) , I saw the red house 這個句子的概率可以被估計為

而在三元語法模型中,這個句子的概率估計為

注意前 n-1 個詞的 n-元會用句首符號 <s> 填充。

指數型[編輯]

最大熵英語Principle of maximum entropy語言模型用特徵函數編碼了詞和n-元的關係。

其中 分區函數英語partition function, 是參數向量, 是特徵函數。

在最簡單的情況下,特徵函數只是某個n-gram存在的指示器。使用先驗的 a 或者使用一些正則化的手段是很有用的。

對數雙線性模型是指數型語言模型的另一個例子。

外部連結[編輯]

  • LMSharp - 開源統計語言模型工具包,支持n-gram模型(Kneser-Ney平滑),以及反饋神經網絡模型(recurrent neural network model)
  1. ^ Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583.
  2. ^ Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
  3. ^ Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
  4. ^ Pham, Vu, et al. "Dropout improves recurrent neural networks for handwriting recognition." 2014 14th International Conference on Frontiers in Handwriting Recognition. IEEE, 2014.
  5. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, pages 237–240. Cambridge University Press, 2009
  6. ^ Buttcher, Clarke, and Cormack. Information Retrieval: Implementing and Evaluating Search Engines. pg. 289–291. MIT Press.
  7. ^ Craig Trim, What is Language Modeling?, April 26th, 2013.