双字母组

维基百科,自由的百科全书
跳转至: 导航搜索

双字母组 或称 二元语法英语Bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。这种组被用在最成功的一种 语音识别[1]語言模型 中。 它们是N字母组的一种特例。

Gappy bigrams 或称 skipping bigrams 是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如 dependency grammar)。

Head word bigrams 是具有明确依赖关系的 gappy bigrams。

本术语也被用在 密碼學 里, 在此领域,试图破解 密码电文 有时 二元语法频率攻击 会被用到。参考 频率分析

在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是 条件概率 应用场景:

 P(W_n|W_{n-1}) = { P(W_{n-1},W_n) \over P(W_{n-1}) }

即,在给定前面一个词 W_{n-1} 的前提下,出现某个词 W_n 的概率  P(W_n) 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P(W_{n-1},W_n) 被出现前一个词 W_{n-1} 的概率除。

英语里双字母组的出现频率[编辑]

下面列出了英语里最常见的双字母组,据 Cornell University Math Explorer's Project[2],该项目统计了不少于 40,000 单词。

th 1.52%       en 0.55%       ng 0.18%
he 1.28%       ed 0.53%       of 0.16%
in 0.94%       to 0.52%       al 0.09%
er 0.94%       it 0.50%       de 0.09%
an 0.82%       ou 0.50%       se 0.08%
re 0.68%       ea 0.47%       le 0.08%
nd 0.63%       hi 0.46%       sa 0.06%
at 0.59%       is 0.46%       si 0.05%
on 0.57%       or 0.43%       ar 0.04%
nt 0.56%       ti 0.34%       ve 0.04%
ha 0.56%       as 0.33%       ra 0.04%
es 0.56%       te 0.27%       ld 0.02%
st 0.55%       et 0.19%       ur 0.02%

参考[编辑]

  1. ^ Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.
  2. ^ Cornell Math Explorer's Project – Substitution Ciphers

扩展阅读[编辑]