双字母组
维基百科,自由的百科全书
双字母组 或称 二元语法(英语:Bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。这种组被用在最成功的一种 语音识别[1] 的 語言模型 中。 它们是N字母组的一种特例。
Gappy bigrams 或称 skipping bigrams 是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如 dependency grammar)。
Head word bigrams 是具有明确依赖关系的 gappy bigrams。
本术语也被用在 密碼學 里, 在此领域,试图破解 密码电文 有时 二元语法频率攻击 会被用到。参考 频率分析。
在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是 条件概率 应用场景:

即,在给定前面一个词
的前提下,出现某个词
的概率
与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率
被出现前一个词
的概率除。
英语里双字母组的出现频率 [编辑]
下面列出了英语里最常见的双字母组,据 Cornell University Math Explorer's Project[2],该项目统计了不少于 40,000 单词。
th 1.52% en 0.55% ng 0.18% he 1.28% ed 0.53% of 0.16% in 0.94% to 0.52% al 0.09% er 0.94% it 0.50% de 0.09% an 0.82% ou 0.50% se 0.08% re 0.68% ea 0.47% le 0.08% nd 0.63% hi 0.46% sa 0.06% at 0.59% is 0.46% si 0.05% on 0.57% or 0.43% ar 0.04% nt 0.56% ti 0.34% ve 0.04% ha 0.56% as 0.33% ra 0.04% es 0.56% te 0.27% ld 0.02% st 0.55% et 0.19% ur 0.02%
参考 [编辑]
- ^ Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.
- ^ Cornell Math Explorer's Project – Substitution Ciphers