潜在语义学

潜在语义分析（Latent Semantic Analysis），是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系，如同义，近义，反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系，这种关系不是以词典上的定义为基础，而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为，世界上数以百计的语言都应该有一种共同的简单的机制，使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下，人们找到了一种简单的数学模型，这种模型的输入是由任何一种语言书写的文献构成的文库，输出是该语言的字、词的一种数学表达（向量）。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。

潛在語義學的觀念也被應用在資訊檢索上，所以有時潛在語義學也被稱為隱含語義索引（Latent Semantic Indexing，LSI）。

概述

隱含語義索引是一種以向量空間模型為基底的資訊檢索技術，常以字詞－文件矩陣表示字詞與文件之間的關聯；而其多以行代表字詞〈term〉，列代表文件〈document〉。

而在矩陣中每個元素的權重值以TF-IDF計算後得到。該字詞在某個文件中的重要性，與該字詞在該文件中出現的次數成正比，與其在所有文件中出現的次數成反比。

而這個字詞－文件矩陣本身也代表著一個標準的語義模組，因為數學矩陣的格式並不是經常的被使用，所以不會太特別的註明其為一個矩陣的型態。

應用

關於隱含語義索引的其他應用：

比對文件之間的概念（資料挖掘、文件分類）
分析後比對不同語言文章的相似度（跨語檢索）
找出字詞間的關聯（同義詞或是多義性）
給定一個查詢詞彙，轉換到概念空間，且找出符合的文件（資訊檢索）

同義詞和多義性是自然語言處理中最基本的問題。

同義現象是指不同的詞語表示相同的的意思。因此，在搜索引擎不會返回一個文檔，即使它與該查詢是相關的，只是由於它不包含查詢關鍵詞中的詞語。例如，查詢“doctors”（医生）時，不會返回包含“physicians”（內科醫生）的文檔，即使它們的意思相同。

多義現象是指一個詞語含有多種意思。因此，查詢的結果可能返回許多不相關的文檔，只是由於它們包含了查詢關鍵詞中的詞語。例如，植物學家和計算機專家在查詢同一個關鍵詞“樹”的時候，它們希望得到的結果是完全不同的。

降維

當生成了詞彙－文檔矩陣后，LSA提供了一種對它的低維近似（可以通過對字詞—文檔矩陣的奇異值分解（SVD）来实现）。做這種近似有以下幾種原因：

對原始的詞彙-文檔矩陣進行計算時，計算量太大。而低維矩陣提供了一種近似（儘量少但卻不可避免地有一些信息丟失）。
原始的矩陣一般包含噪聲（垃圾信息）。在這種意義上，近似的低維矩陣是一種去噪矩陣（比原始矩陣更好）。
原始的詞彙－文檔矩陣過度地稀疏。它羅列了每篇文檔中的實際出現的詞彙，而由於同義詞的存在，我們關心的是所有地與文檔有關係的詞彙集合，這個集合一般要比實際出現的詞彙集合要大得多。

实现

奇異值分解（svd）是一種典型的使用大型矩陣的運算方法，會佔用較大的存儲空間，可以通過一種類似神經網絡的計算方法來大大降低這一計算對內存的佔用。現在已經有一種快速的，佔用內存較低的，計算大型矩陣的svd算法，見應用文獻【3】.可以使用MATLAB和Python來實現這一算法。

另见

反向索引
复合词组处理（Compound term processing）

参考文献

Handbook of Latent Semantic Analysis, Edited by Thomas K Landauer, Danielle S. McNamara, Simon Dennis and Walter Kintsch, Lawrence Erlbaum Associates, Inc., 2007.
科罗拉多大学的潜在语义学网上工具（页面存档备份，存于互联网档案馆）
Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition" (PDF). Linear Algebra and Its Applications 415: 20–30. doi:10.1016/j.laa.2005.07.021

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統