词形还原

语言学中的词形还原（英语：Lemmatization）是将一个单词的屈折形式组合在一起的过程，以便可以将它们作为单个项目进行分析，由该单词的原形（英语：Lemma (morphology)）或词典形式进行识别^[1]。

在计算语言学中，词形还原是根据一个单词的预期含义来确定其词形的算法过程。与词干提取不同的是，词形还原取决于正确识别一个单词在句子中的词类和意义，以及在该句子周围更大的语境中，例如邻近的句子甚至整个文件中。因此，开发高效的词义分析算法是一个开放的研究领域^[2]^[3]^[4]。

描述

在许多语言中，单词会以多种屈折形式出现。例如在英语中，动词“to walk”可能出现“walk”、“walked”、“walks”或“walking”。人们在字典中可能查到的基本形式“walk”，被称为该词的词义。基本形式与一个语篇的关联通常被称为该词的词位。

词形还原与词干提取密切相关。不同的是，词干提取在不了解上下文的情况下对单个单词进行操作，因此不能区分因语篇不同而具有不同含义的单词。然而词干提取通常更容易实现，运行速度也更快。对于某些应用来说，降低“准确度”可能并不重要。事实上，当在资讯检索系统中使用时，与词形还原比，词干提取提高了查询召回的准确性，或真正的正面率。然而对于这些系统来说，词干提取降低了精确率，或者说实际为阳性的正标实例的比例^[5]。

举例来说：

“better”的原形是“good”。这种联系被词干提取所遗漏，因为它需要查询字典。
“walk”是“walking”的基本形式，因此在词干提取和词形还原中都与此相匹配。
根据上下文，“meeting”可以是名词的基本形式，也可以是动词的形式（“meet”）；例如，“In our last meeting”或“We are meeting again tomorrow”。与词干提取不同，词形还原试图根据上下文选择正确的原形。

像Lucene^[6]这样的文档索引软件可以存储单词的基本词干提取格式，而不需要了解词义，只是考虑单词形成的语法规则。词干提取的词本身可能不是一个有效的单词：如下例所示，“lazy”被许多词干提取为“lazi”。这是因为词干提取的目的不是为了产生适当的词组——那是一个更具挑战性的任务，需要对语境的了解。词干提取的主要目的是将一个单词的不同形式映射到一个单一形式^[7]。作为一个基于规则的算法，它只依赖于一个词的拼写，它牺牲了准确性，以确保，例如当“laziness”被词干提取为“lazi”时，它与“lazy”具有相同的词干。

算法

词形还原的一个简单的方法是通过简单的字典查询。这对直接的屈折形式很有效，但在其他情况下，例如在有长合成词的语言中，就需要一个基于规则的系统。这种规则可以是手工制作的，也可以是从注释的语料库中自动学习的。

在生物医学中的应用

对已发表的生物医学文献进行形态学分析可以产生有用的结果。生物医学文本的形态学处理可以通过专门的生物医学的词形还原程序更加有效，并可能提高实际信息抽取任务的准确性^[8]。

参考资料

^ Collins English Dictionary, entry for "lemmatise"
^ WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages (PDF). [2022-10-28]. （原始内容存档 (PDF)于2016-11-01）.
^ Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich. Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics: 2268–2274. 2015 [2022-10-28]. doi:10.18653/v1/D15-1272 . （原始内容 (PDF)存档于2017-10-31）.
^ Bergmanis, Toms; Goldwater, Sharon. Context Sensitive Neural Lemmatization with Lematus (PDF). [2022-10-28]. （原始内容 (PDF)存档于2019-12-31）.
^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press. [2022-10-28]. （原始内容存档于2022-12-13）.
^ Lucene Snowball. Apache project. [2022-10-28]. （原始内容存档于2022-12-10）.
^ Martin Porter. Porter Stemmer. [2022-10-28]. （原始内容存档于2012-05-14）.
^ Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics. 2012, 3: 3. PMC 3359276 . PMID 22464129. doi:10.1186/2041-1480-3-3.

[1] Collins English Dictionary, entry for "lemmatise"

[Semantic_Annotation_Research-2] WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages (PDF). [2022-10-28]. （原始内容存档 (PDF)于2016-11-01）.

[Muller,_University_of_Munich-3] Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich. Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics: 2268–2274. 2015 [2022-10-28]. doi:10.18653/v1/D15-1272 . （原始内容 (PDF)存档于2017-10-31）.

[4] Bergmanis, Toms; Goldwater, Sharon. Context Sensitive Neural Lemmatization with Lematus (PDF). [2022-10-28]. （原始内容 (PDF)存档于2019-12-31）.

[Stanford_Information_Retrieval_Book-5] Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press. [2022-10-28]. （原始内容存档于2022-12-13）.

[Lucene_Snowball-6] Lucene Snowball. Apache project. [2022-10-28]. （原始内容存档于2022-12-10）.

[Porter_Stemmer-7] Martin Porter. Porter Stemmer. [2022-10-28]. （原始内容存档于2012-05-14）.

[8] Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics. 2012, 3: 3. PMC 3359276 . PMID 22464129. doi:10.1186/2041-1480-3-3.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智能（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分布语义（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 语言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	电脑辅助翻译基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼写检查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天机器人文字冒险游戏问答系统