語言模型

维基百科,自由的百科全书
跳转至: 导航搜索

統計式的語言模型是藉由一個機率分佈,而指派機率給字詞所組成的字串:

P(w_1,\ldots,w_m)

語言模型經常使用在許多自然語言處理方面的應用,如語音識別機器翻譯,詞性標註,句法分析和資訊檢索。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n元語法(N-gram)模型之原因。

語音辨識和在資料壓縮的領域中,這種模式試圖捕捉語言的特性,並預測在語音串列中的下一個字。

當用於資訊檢索,語言模型是與文件有關的集合。以查詢字「Q」作為輸入,依據機率將文件作排序,而該機率P(Q|M_d)代表該文件的語言模型所產生的語句之機率。

外部链接[编辑]

  • LMSharp - 开源统计语言模型工具包,支持n-gram模型(Kneser-Ney平滑),以及反馈神经网络模型(recurrent neural network model)