主题模型

主题模型（Topic Model）在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

主题模型最初是运用于自然语言处理相关方向，但目前以及延伸至例如生物信息学的其它领域。

历史

Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引^[1]。1999年，Thomas Hofmann又在此基础上，提出了概率性潜在语义索引（Probabilistic Latent Semantic Indexing，简称PLSI）^[2]。

隐含狄利克雷分配可能是最常见的主题模型，是一般化的PLSI，由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出^[3]。LDA允许文档拥有多种主题。它用於按主題收集、分類和降低文本的維度。 LDA 是一種主題模型方法，可用於分析文檔的主題分佈。它以概率分佈的形式揭示每個文檔集的主題，以便在分析一些文檔以提取其主題分佈後，可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示。其它主题模型一般是在LDA基础上改进的^[4]。例如Pachinko分布在LDA度量词语关联之上，还加入了主题的关联度。

參見

範例理論

参考

^ Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh. Latent Semantic Indexing: A probabilistic analysis. Proceedings of ACM PODS. 1998 [2013-08-18]. （原始内容 (Postscript)存档于2013-05-09）.
^ Hofmann, Thomas. Probabilistic Latent Semantic Indexing (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999 [2013-08-18]. （原始内容 (PDF)存档于2010-12-14）.
^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3: 993–1022 [2013-08-18]. doi:10.1162/jmlr.2003.3.4-5.993. （原始内容存档于2012-05-01）.
^ Zeng, L.; Li, R.Y.M.; Yigitcanlar, T.; Zeng, H. Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach. Buildings 2023, 13, 927. https://doi.org/10.3390/buildings13040927

[PRTV1998-1] Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh. Latent Semantic Indexing: A probabilistic analysis. Proceedings of ACM PODS. 1998 [2013-08-18]. （原始内容 (Postscript)存档于2013-05-09）.

[hofmann1999-2] Hofmann, Thomas. Probabilistic Latent Semantic Indexing (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999 [2013-08-18]. （原始内容 (PDF)存档于2010-12-14）.

[blei2003-3] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3: 993–1022 [2013-08-18]. doi:10.1162/jmlr.2003.3.4-5.993. （原始内容存档于2012-05-01）.

[4] Zeng, L.; Li, R.Y.M.; Yigitcanlar, T.; Zeng, H. Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach. Buildings 2023, 13, 927. https://doi.org/10.3390/buildings13040927

[1]

[2]

[3]

[4]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統