语言模型

维基百科,自由的百科全书
跳到导航 跳到搜索

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串:

语言模型经常使用在许多自然语言处理方面的应用,如语音识别机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的几率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

语音辨识和在资料压缩的领域中,这种模式试图捕捉语言的特性,并预测在语音串列中的下一个字。

当用于资讯检索,语言模型是与文件有关的集合。以查询字“Q”作为输入,依据几率将文件作排序,而该几率代表该文件的语言模型所产生的语句之几率。

外部链接[编辑]

  • LMSharp - 开源统计语言模型工具包,支持n-gram模型(Kneser-Ney平滑),以及反馈神经网络模型(recurrent neural network model)