文檔分類
文檔分類是圖書館學, 信息學和計算機科學中的一個問題。其任務是將一個文檔分配到一個或者多個類別中。它可以是通過人工分類完成的,也可以是通過計算機算法實現的。多數通過人工的文檔分類問題一直屬於圖書館學的領域,而通過算法實現的文檔分類問題則多屬於信息學和計算機科學的領域。這些問題之間是有相同的部分的,所以有一些對文檔分類的跨學科研究。
需要被分類的文檔有可能是純文本,圖片,音樂等等。每一種文檔都有其獨特分類問題。根據特殊的文檔做研究,文檔分類可以細分成文本分類,圖片分類等等。
可以根據主題來進行文檔分類,也可以根據它的屬性(例如文檔的類型,作者,出版的時間等)進行分類。下文只包含主題分類的問題。主要由兩種方法來做根據主題的文檔分類:基於內容的方法以及基於請求的方法。
「基於內容」與「基於請求」的分類方法
[編輯]基於內容的分類方法是通過特殊主題上的不同權重來決定該文檔被分到哪個類別中的。一般來說,在圖書館中,當一個文檔被劃分到某個類別時,這個文檔中至少要有20%的內容是關於這個類的。[1]在自動分類的領域,這個標準可能是一些給定單詞在文檔中出現的頻率。
面向請求的分類(或者索引) 是通過向用戶獲得請求後,根據用戶的請求將文檔進行分類。一個形象的比喻,好比分類器會問自己:「我應該通過哪種特徵找到這些文檔呢」,或者「通過哪些本質特徵能夠讓我找出我身邊相關的文檔呢?」[2]
面向請求的分類主要的適用對象是一個特定的用戶或群體。比方說,一個需要一定數據去研究女權主義的信息庫與一個研究歷史的信息庫相比就是一個特定的用戶。有一種更好的理解面向請求的分類,就是把它理解成為「基於策略的分類」:基於特殊群體的請求,通過一定的想法和策略進行分類,從而達到目的。在這種方式下,分類方式就不一定是100%基於用戶研究的領域了,可以通過一些共性的策略,加以組合或修改,來實現用戶的請求。只有從用戶和應用中獲得的經驗使用了,面向請求的分類才可以被認為是一種基於用戶的實現方法。
文檔自動分類
[編輯]文檔自動分類的任務可以分為三類:監督式學習的文檔分類,這需要人工反饋數據的一些外在機制。非監督式學習的文檔分類(也被稱作文檔聚類),這類任務完全不依靠外在人工機制。和半監督式學習的文檔分類,是前兩類的結合,[3] 它其中有一部分的文檔是由人工標註的,這有一些相關方面的具有許可證的軟件。[4][5][6][7][8]
工具
[編輯]自動的文檔分類工具如下:
- 最大期望算法 (EM)
- 樸素貝葉斯分類器
- tf–idf
- 瞬時訓練神經網絡
- 潛在語義學
- 支持向量機 (SVM)
- 人工神經網絡
- 最近鄰居法
- 決策樹比如ID3或C4.5
- 概念挖掘
- 基於粗集合的分類器
- 基於軟集合的分類器
- 多示例學習
- 自然語言處理的方法
應用領域
[編輯]分類工具被應用於如下:
- 郵件過濾,一種能夠從合法郵件中檢查出垃圾電子郵件的方法。
- 電子郵件按路線送達, 根據本話題內容中提到的方法將電子郵件送至一個特殊群體的一般地址。[9]
- 語言辨識, 自動辨識一個文檔中的語言。
- 流派分類, 自動辨識一個純文本的流派。[10]
- 可讀性評價, 自動評價一個純文本的可讀性程度,或者找到可讀性適合於某一特定群體的文本,這屬於文本簡化的體系。
- 情感分析,辨析出說話人或者作者在關於某一個主題或者全文的情感或者態度。
- 健康相關的分析,用社交媒體來監管大眾的健康問題。[11]
參閱
[編輯]延伸閱讀
[編輯]- Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002.
- Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack. Information Retrieval: Implementing and Evaluating Search Engines (頁面存檔備份,存於網際網路檔案館). MIT Press, 2010.
參考資料
[編輯]- ^ 美國國會圖書館 (2008). 主題標題手冊. 華盛頓特區: 美國國會圖書館,政策和標準的劃分。(Sheet H 180: 「被分派的話題至少由20%的與標題有關的信息組成。」
- ^ Soergel, Dagobert (1985). Organizing information: Principles of data base and retrieval systems. Orlando, FL: Academic Press.
- ^ Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. 信息處理和管理, 52(2):217–257.
- ^ An Interactive Automatic Document Classification Prototype (PDF). [2018-03-18]. (原始內容 (PDF)存檔於2017-11-15).
- ^ Interactive Automatic Document Classification Prototype 網際網路檔案館的存檔,存檔日期April 24, 2015,.
- ^ Document Classification - Artsyl
- ^ ABBYY FineReader Engine 11 for Windows. [2018-03-18]. (原始內容存檔於2015-04-23).
- ^ Classifier - Antidot. [2018-03-18]. (原始內容存檔於2020-11-25).
- ^ Stephan Busemann, Sven Schmeier and Roman G. Arens (2000). Message classification in the call center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna and Robert Dale, eds., Proc. 6th Applied Natural Language Processing Conf. (ANLP'00), pp. 158-165, ACL.
- ^ Santini, Marina; Rosso, Mark, Testing a Genre-Enabled Application: A Preliminary Assessment (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK: 54–63, 2008 [2018-03-18], (原始內容 (PDF)存檔於2019-11-15)
- ^ X. Dai, M. Bikdash and B. Meyer, "通過社交媒體監管大眾的健康問題:通過詞嵌入的方法分析推特從而分類," SoutheastCon 2017, Charlotte, NC, 2017, pp. 1-7. doi: 10.1109/SECON.2017.7925400, URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7925400&isnumber=7925258
- ^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A. Overview of the protein-protein interaction annotation extraction task of Bio Creative II. Genome Biology. 2008,. 9 Suppl 2: S4. PMC 2559988 . PMID 18834495. doi:10.1186/gb-2008-9-s2-s4.
外部連結
[編輯]- Introduction to document classification
- Bibliography on Automated Text Categorization
- Bibliography on Query Classification (頁面存檔備份,存於網際網路檔案館)
- Text Classification (頁面存檔備份,存於網際網路檔案館) analysis page
- Learning to Classify Text - Chap. 6 of the book Natural Language Processing with Python (頁面存檔備份,存於網際網路檔案館) (available online)
- TechTC - Technion Repository of Text Categorization Datasets
- David D. Lewis's Datasets (頁面存檔備份,存於網際網路檔案館)
- BioCreative III ACT (article classification task) dataset