中文自动分词

维基百科,自由的百科全书
跳转到: 导航, 搜索

中文自动分词指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的之间有空格以标识。中文自动分词被认为是中文自然语言处理中的一个最基本的环节。

[编辑] 中文分词的难点

  • 未登录词,基于词库的分词方法往往不能识别新词、特定领域的专有词。人名、机构名、地名、产品名、商标名、简称、省略语等都是自动分词的难点。
  • 切分歧义,使用基于n-gram的切词方法往往不能保证词在切分过程中的语义独立性。歧义主要包括交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面|的”和“表|面的”。这种称为交集型歧义(交叉歧义)。“化妆和服装”可以分成“化妆|和|服装”或者“化妆|和服|装”。

[编辑] 现有方法

  • 基于词典的匹配
    • 前向最大匹配
    • 后向最大匹配
  • 基于字的标注
    • 最大熵模型
    • 条件随机场模型
    • 感知器模型
  • 其它方法
    • 与词性标注结合
    • 与句法分析结合
个人工具
名字空间
操作
导航
帮助
工具