詞形還原

語言學中的詞形還原（英語：Lemmatization）是將一個單詞的屈折形式組合在一起的過程，以便可以將它們作為單個項目進行分析，由該單詞的原形（英語：Lemma (morphology)）或詞典形式進行識別^[1]。

在計算語言學中，詞形還原是根據一個單詞的預期含義來確定其詞形的算法過程。與詞幹提取不同的是，詞形還原取決於正確識別一個單詞在句子中的詞類和意義，以及在該句子周圍更大的語境中，例如鄰近的句子甚至整個文件中。因此，開發高效的詞義分析算法是一個開放的研究領域^[2]^[3]^[4]。

描述

在許多語言中，單詞會以多種屈折形式出現。例如在英語中，動詞「to walk」可能出現「walk」、「walked」、「walks」或「walking」。人們在字典中可能查到的基本形式「walk」，被稱為該詞的詞義。基本形式與一個語篇的關聯通常被稱為該詞的詞位。

詞形還原與詞幹提取密切相關。不同的是，詞幹提取在不了解上下文的情況下對單個單詞進行操作，因此不能區分因語篇不同而具有不同含義的單詞。然而詞幹提取通常更容易實現，運行速度也更快。對於某些應用來說，降低「準確度」可能並不重要。事實上，當在資訊檢索系統中使用時，與詞形還原比，詞幹提取提高了查詢召回的準確性，或真正的正面率。然而對於這些系統來說，詞幹提取降低了精確率，或者說實際為陽性的正標實例的比例^[5]。

舉例來說：

「better」的原形是「good」。這種聯繫被詞幹提取所遺漏，因為它需要查詢字典。
「walk」是「walking」的基本形式，因此在詞幹提取和詞形還原中都與此相匹配。
根據上下文，「meeting」可以是名詞的基本形式，也可以是動詞的形式（「meet」）；例如，「In our last meeting」或「We are meeting again tomorrow」。與詞幹提取不同，詞形還原試圖根據上下文選擇正確的原形。

像Lucene^[6]這樣的文檔索引軟體可以存儲單詞的基本詞幹提取格式，而不需要了解詞義，只是考慮單詞形成的語法規則。詞幹提取的詞本身可能不是一個有效的單詞：如下例所示，「lazy」被許多詞幹提取為「lazi」。這是因為詞幹提取的目的不是為了產生適當的詞組——那是一個更具挑戰性的任務，需要對語境的了解。詞幹提取的主要目的是將一個單詞的不同形式映射到一個單一形式^[7]。作為一個基於規則的算法，它只依賴於一個詞的拼寫，它犧牲了準確性，以確保，例如當「laziness」被詞幹提取為「lazi」時，它與「lazy」具有相同的詞幹。

演算法

詞形還原的一個簡單的方法是通過簡單的字典查詢。這對直接的屈折形式很有效，但在其他情況下，例如在有長合成詞的語言中，就需要一個基於規則的系統。這種規則可以是手工製作的，也可以是從註釋的語料庫中自動學習的。

在生物醫學中的應用

對已發表的生物醫學文獻進行形態學分析可以產生有用的結果。生物醫學文本的形態學處理可以通過專門的生物醫學的詞形還原程序更加有效，並可能提高實際信息抽取任務的準確性^[8]。

參考資料

^ Collins English Dictionary, entry for "lemmatise"
^ WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages (PDF). [2022-10-28]. （原始內容存檔 (PDF)於2016-11-01）.
^ Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich. Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics: 2268–2274. 2015 [2022-10-28]. doi:10.18653/v1/D15-1272 . （原始內容 (PDF)存檔於2017-10-31）.
^ Bergmanis, Toms; Goldwater, Sharon. Context Sensitive Neural Lemmatization with Lematus (PDF). [2022-10-28]. （原始內容 (PDF)存檔於2019-12-31）.
^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press. [2022-10-28]. （原始內容存檔於2022-12-13）.
^ Lucene Snowball. Apache project. [2022-10-28]. （原始內容存檔於2022-12-10）.
^ Martin Porter. Porter Stemmer. [2022-10-28]. （原始內容存檔於2012-05-14）.
^ Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics. 2012, 3: 3. PMC 3359276 . PMID 22464129. doi:10.1186/2041-1480-3-3.

[1] Collins English Dictionary, entry for "lemmatise"

[Semantic_Annotation_Research-2] WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages (PDF). [2022-10-28]. （原始內容存檔 (PDF)於2016-11-01）.

[Muller,_University_of_Munich-3] Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich. Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics: 2268–2274. 2015 [2022-10-28]. doi:10.18653/v1/D15-1272 . （原始內容 (PDF)存檔於2017-10-31）.

[4] Bergmanis, Toms; Goldwater, Sharon. Context Sensitive Neural Lemmatization with Lematus (PDF). [2022-10-28]. （原始內容 (PDF)存檔於2019-12-31）.

[Stanford_Information_Retrieval_Book-5] Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press. [2022-10-28]. （原始內容存檔於2022-12-13）.

[Lucene_Snowball-6] Lucene Snowball. Apache project. [2022-10-28]. （原始內容存檔於2022-12-10）.

[Porter_Stemmer-7] Martin Porter. Porter Stemmer. [2022-10-28]. （原始內容存檔於2012-05-14）.

[8] Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics. 2012, 3: 3. PMC 3359276 . PMID 22464129. doi:10.1186/2041-1480-3-3.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智慧（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分布（英語：Pachinko allocation）隱含狄利克雷分布潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機器人文字冒險遊戲問答系統