文本挖掘

文本挖掘（Text mining）有時也被稱為文字探勘、文本數據挖掘等，大致相當於文字分析，一般指文本處理過程中產生高質量的信息。高質量的信息通常通過分類和預測來產生，如模式識別。文本挖掘通常涉及輸入文本的處理過程（通常進行分析，同時加上一些衍生語言特徵以及消除雜音，隨後插入到數據庫中），產生結構化數據，並最終評價和解釋輸出。'高品質'的文本挖掘通常是指某種組合的相關性，新穎性和趣味性。典型的文本挖掘方法包括文本分類，文本聚類，概念/實體挖掘，生產精確分類，觀點分析，文檔摘要和實體關係模型（即，學習已命名實體之間的關係）。文本分析包括了信息檢索與詞典分析來研究詞語的頻數分布、模式識別、標籤\注釋、信息抽取，數據挖掘技術包括鏈接和關聯分析、可視化和預測分析。本質上，首要的任務是，通過自然語言處理（NLP）和分析方法，將文本轉化為數據進行分析。

文本挖掘與文本分析

文本分析這一術語描述了一套語言學、統計學和機器學習技術，其對文本來源的內容信息進行建模和結構化，用於商業智能、探索性數據分析（英語：Exploratory data analysis）、研究或調查。^[1] 該術語大致與文本挖掘同義；事實上，Ronen Feldman在2004年修改了2000年對 "文本挖掘"^[2]的描述，以描述 "文本分析"。^[3]後一個術語現在在商業環境中使用得更頻繁，而 "文本挖掘 "則用於一些最早可以追溯到1980年代的應用領域，^[4]尤其是在生命科學研究和政府情報方面。

文本分析這一術語也描述了文本分析對商業問題的應用，無論是獨立的還是與現場數字數據的查詢和分析相結合的。不言而喻的，80%的商業相關信息是以非結構化（英語：Unstructured data）的形式出現的，主要是文本。^[5]這些技術和過程可以發現並展示知識——事實、商業規則（英語：Business rule）和關係——否則這些知識就會被鎖定在文本形式中，無法被自動處理。

歷史

勞工密集型的人工純文字挖掘方法最早出現在20世紀80年代中期，但在過去的十年中，技術的進步已經使這一領域迅速取得進展。文本挖掘已經是信息檢索、數據挖掘、機器學習、統計以及計算語言學等學科中的重要領域。由於目前的大多數信息（80％）是以文本的形式來保存，文本挖掘被認為具有較高的商業潛在價值。

多語種數據挖掘已經越來越多的引起人們的興趣：能夠根據自己的意願從跨語種的文字來源中挖掘出有用的信息。

應用

現在，文本挖掘技術被廣泛地應用於各種政府、研究和商業需求。所有這些群體都可能將文本挖掘用於管理記錄和搜索與他們日常活動相關的文件。例如，法律專業人士可將文本挖掘用於電子取證（英語：Electronic discovery）。政府和軍事團體將文本挖掘用於國家安全和情報目的。科學研究人員將文本挖掘方法納入組織大量文本數據（即解決非結構化數據（英語：Unstructured data）的問題）的工作中，以挖掘通過文本交流的想法（例如，社交媒體的情感分析^[6]^[7]^[8]），並支持生命科學和生物信息學等領域的科學發現（英語：Discovery (observation)）。在商業領域，其應用有支持競爭情報和自動廣告投放（英語：Ad serving），以及其他許多活動。

安全應用

許多文本挖掘的軟件包是為安全應用的。它們多數是出於國家安全的目的，監控和分析類似於互聯網新聞（英語：Digital journalism）、博客等的在線純文本。^[9] 文本加密和解密的領域也需要研究文本挖掘。

軟件應用

包括IBM和微軟在內的大公司也在研究和開發文本挖掘方法和軟件，以進一步實現文本挖掘和分析過程的自動化；而搜索和索引領域的一些公司也在研究和開發文本挖掘方法和軟件，以改善其結果。在公共部門內，許多努力集中在開發跟蹤和監測恐怖活動的軟件上。^[10]對於研究而言，Weka軟件（見後文「軟件和應用」部分）是科學界最受歡迎的選擇之一，它對初學者來說是一個很好的入門點。對於Python程序員來說，為更加普遍的目的有一個優秀的工具包，叫做NLTK（英語：Natural Language Toolkit）。對於更高級的程序員，還有Gensim（英語：Gensim）庫，它專注於基於詞嵌入的文本表示。

在線媒體應用

大型媒體公司，如Tribune Media，正在使用文本挖掘來澄清信息，為讀者提供更好的搜索體驗，這反過來又增加了網站的 "粘性 "和收入。此外，在後端，編輯們也正在受益，因為他們能夠分享、關聯和包裝新聞，大大增加了內容賺錢的機會。

營銷應用

文本分析正在被應用於商業領域，特別是營銷領域，如客戶關係管理。^[11]Coussement和Van den Poel（2008）^[12]^[13]將其應用於改善客戶流失（英語：Customer attrition）的預測分析模型。^[12]文本挖掘也被應用於股票收益預測。^[14]

情感分析

情感分析可能涉及對電影評論的分析，以估計評論對電影的好感程度。^[15]這種分析可能需要一個已標記的數據集或對詞的情感性進行標記。WordNet^[16]和ConceptNet（英語：Open Mind Common Sense）^[17]已經有分別詞彙和概念的情感性資源。

在情感計算的相關領域，文本已經被用來檢測情感。^[18]基於文本的情感計算方法已經被用於多個語料庫，如學生評價、兒童故事和新聞故事。情感分析也被應用於分析社交媒體內容。例如，之前對碳中和帖子的研究發現，正面情緒微博（83.9%）大約是負面情緒微博（9.9%）的八倍，只有 6.3% 是中性的^[19]。

軟件和應用

用來文本挖掘的計算機程序可從許多商業和開放源代碼公司和來源獲得。

開源軟件和應用

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ （頁面存檔備份，存於網際網路檔案館）

影響

直到最近，網站最常使用的是基於文本的搜索，它只能找到包含用戶給定的特定單詞或短語的文件。現在，通過使用語義網，文本挖掘可以根據意義和上下文（而不僅僅是某個特定的詞）來尋找內容。此外，文本挖掘軟件可以被用來建立有關特定人物和事件的大型信息檔案。例如，可以根據從新聞報道中提取的數據建立大型數據集，以促進社會網絡分析或反情報工作。實際上，文本挖掘軟件的作用類似於情報分析員或研究圖書管理員，儘管分析的範圍更有限。文本挖掘也被用於一些電子郵件的垃圾郵件過濾器，作為確定可能為廣告或其他不需要的材料的信息的一種方式。文本挖掘在確定金融市場情緒（英語：Market sentiment）方面發揮着重要作用。

注釋

Ronen Feldman and James Sanger, The Text Mining Handbook, Cambridge University Press, ISBN 9780521836579
Kao Anne, Poteet, Steve R. (Editors), Natural Language Processing and Text Mining, Springer, ISBN 184628175X
Konchady Manu "Text Mining Application Programming (Programming Series)" by Manu Konchady, Charles River Media, ISBN 1584504609
M. Ikonomakis, S. Kotsiantis, V. Tampakas, Text Classification Using Machine Learning Techniques, WSEAS Transactions on Computers, Issue 8, Volume 4, August 2005, pp. 966-974 (https://web.archive.org/web/20081203004649/http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final%20journal.pdf)

參考資料

^ Business Technology News and Commentary. InformationWeek. [2022-08-22] （英語）.
^ KDD-2000 Workshop on Text Mining – Call for Papers. Cs.cmu.edu. [2015-02-23]. （原始內容存檔於2022-07-13）.
^ [1] 網際網路檔案館的存檔，存檔日期March 3, 2012，.
^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics 1. 1982: 127–32. S2CID 6433117. doi:10.3115/991813.991833.
^ Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008 [2015-02-23]. （原始內容存檔於2014-09-12）.
^ Pang, Bo; Lee, Lillian. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval. 2008, 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . ISSN 1554-0669. doi:10.1561/1500000011.
^ Paltoglou, Georgios; Thelwall, Mike. Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology. 2012-09-01, 3 (4): 66. ISSN 2157-6904. S2CID 16600444. doi:10.1145/2337542.2337551.
^ Sentiment Analysis in Twitter < SemEval-2017 Task 4. alt.qcri.org. [2018-10-02]. （原始內容存檔於2019-03-24）.
^ Zanasi, Alessandro. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing 53: 53. 2009. ISBN 978-3-540-88180-3. doi:10.1007/978-3-540-88181-0_7.
^ [2] 網際網路檔案館的存檔，存檔日期October 4, 2013，.
^ Text Analytics. Medallia. [2015-02-23]. （原始內容存檔於2017-11-08）.
^ ^12.0 ^12.1 Coussement, Kristof; Van Den Poel, Dirk. Integrating the voice of customers through call center emails into a decision support system for churn prediction. Information & Management. 2008, 45 (3): 164–74 [2022-08-22]. CiteSeerX 10.1.1.113.3238 . doi:10.1016/j.im.2008.01.005. （原始內容存檔於2019-12-15）.
^ Coussement, Kristof; Van Den Poel, Dirk. Improving customer complaint management by automatic email classification using linguistic style features as predictors. Decision Support Systems. 2008, 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
^ Ramiro H. Gálvez; Agustín Gravano. Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science. 2017, 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar. Thumbs up?. Proceedings of the ACL-02 conference on Empirical methods in natural language processing 10. 2002: 79–86. S2CID 7105713. doi:10.3115/1118693.1118704.
^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock. Developing Affective Lexical Resources (PDF). PsychNology Journal. 2005, 2 (1): 61–83 [2008-09-27]. （原始內容存檔 (PDF)於2018-09-20）.
^ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain. SenticNet: a Publicly Available Semantic Resource for Opinion Mining (PDF). Proceedings of AAAI CSK: 14–18. 2010 [2022-08-22]. （原始內容存檔 (PDF)於2019-03-29）.
^ Calvo, Rafael A; d'Mello, Sidney. Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications. IEEE Transactions on Affective Computing. 2010, 1 (1): 18–37. S2CID 753606. doi:10.1109/T-AFFC.2010.1.
^ (2023) A Study on Public Perceptions of Carbon Neutrality in China: has the Idea of ESG Been Encompassed? Front. Environ. Sci. 10:949959. doi: 10.3389/fenvs.2022.949959

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智慧（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分布（英語：Pachinko allocation）隱含狄利克雷分布潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機器人文字冒險遊戲問答系統