n元語法

維基百科,自由的百科全書

n元語法(英語:n-gram)指文本中連續出現的n個語詞。n元語法模型是基於(n-1)階馬爾可夫鏈的一種概率語言模型,通過n個語詞出現的概率來推斷語句的結構。[1][2]這一模型被廣泛應用於概率論、通信理論、計算語言學(如基於統計的自然語言處理)、計算生物學(如序列分析)、數據壓縮等領域。

當n分別為1、2、3時,又分別稱為一元語法(unigram)、二元語法bigram)與三元語法(trigram)。[2]

示例[編輯]

不同領域中的n元語法示例
領域 單位 示例 一元語法 二元語法 三元語法
馬爾可夫鏈階數 0 1 2
蛋白質測序 氨基酸 … Cys-Gly-Leu-Ser-Trp … …, Cys, Gly, Leu, Ser, Trp, … …, Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, … …, Cys-Gly-Leu, Gly-Leu-Ser, Leu-Ser-Trp, …
DNA測序 鹼基對 …AGCTTCGA… …, A, G, C, T, T, C, G, A, … …, AG, GC, CT, TT, TC, CG, GA, … …, AGC, GCT, CTT, TTC, TCG, CGA, …
計算語言學 字符 …to_be_or_not_to_be… …, t, o, _, b, e, _, o, r, _, n, o, t, _, t, o, _, b, e, … …, to, o_, _b, be, e_, _o, or, r_, _n, no, ot, t_, _t, to, o_, _b, be, … …, to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, …
計算語言學 單詞 … to be or not to be … …, to, be, or, not, to, be, … …, to be, be or, or not, not to, to be, … …, to be or, be or not, or not to, not to be, …

參考文獻[編輯]

  1. ^ 存档副本. [2016-10-16]. (原始內容存檔於2016-12-25). 
  2. ^ 2.0 2.1 n元語法(資訊與通信術語辭典). 國家教育研究院. [2016-10-16]. (原始內容存檔於2019-02-17).