自動標引
此條目需要精通或熟悉相關主題的編者參與及協助編輯。 (2020年4月4日) |
此條目包含過多行話或專業術語,可能需要簡化或提出進一步解釋。 (2020年3月26日) |
自動標引(英語:Automatic Indexing)包括關鍵詞自動提取(又稱自動抽詞標引)與自動賦詞標引兩種類型。關鍵詞自動提取是一種識別有意義且具有代表性片段或詞彙的自動化技術[1]。關鍵詞自動提取在文本挖掘域被稱為關鍵詞抽取(英語:Keyword Extraction),在計算語言學領域通常着眼於術語自動識別(英語:Automatic Term Recognition),在訊息檢索領域,就是指自動標引。自動標引屬於文本訊息抽取的範疇。文本訊息抽取是從文本數據中抽取人們關注的特定的訊息。
作用
[編輯]由於關鍵詞是表達文件主題意義的最小單位,因此大部分對非結構化文件的自動處理,如自動標引、自動文摘、自動分類、自動聚類、相關反饋、自動過濾、事件檢測與跟蹤、知識挖掘、訊息可視化、概念檢索、檢索提示、關聯知識分析、自動問答等,都必須先進行關鍵詞提取的動作,再進行其他的處理。可以說,關鍵詞提取是所有文件自動處理的基礎與核心技術。目前大多文檔都不具有關鍵詞,同時手工標引費力費時且主觀性較強, 因此關鍵詞自動標引是一項值得研究的技術[2]。
發展過程
[編輯]自動標引研究可以分為三個階段: 從Luhn於1957年開始進行自動標引後開始,到目前為止,自動標引研究經歷了50年的發展歷程。一直到20世紀90年代初,關於關鍵詞自動提取的研究一直就沒有停止過。 20世紀90年代初到90年代末,自動標引研究漸漸冷卻,原因主要包括:全文索引逐漸被人採用,並且基本上能滿足用戶需要;傳統的自動標引方法的效率到了極限;網絡興起之初的衝擊與信息需求環境的改變。20世紀90年代末一直到現在,關鍵詞自動提取的研究逐漸升溫,尤其是最近幾年,關鍵詞自動提取研究進行的如火如荼,產生該現象的主要原因為:全文索引的功能越來越難以滿足實際需求,用戶需要更加精確的結果;另外互聯網的很多服務,例如自動摘要,文檔分類與聚類,文本分析,主題檢索等都要依賴於關鍵詞自動提取的結果,只有這樣才能有希望從根本上提高訊息服務品質。
代表方法
[編輯]根據見諸於報道的自動標引研究情況,結合自動標引研究領域的影響程度和自動標引方法的創新程度,歸納出1957~2007年五十年時間裡比較有代表性的自動標引方法。
- 1957年,Luhn開始自動標引研究,首次將計算機技術引入文獻標引領域,開創了以詞頻為特徵的統計標引方法,其理論基礎是Zipf定律,該方法具有一定的客觀性和合理性,並且簡單易行,在自動標引中占有重要地位[3]
- 1958年,Luhn提出基於絕對頻率加權法的自動標引方法[4] ; P.B.Baxendale提出從論題句和介詞短語中自動提取關鍵詞[5]
- 1959年,Edmundson與Oswald提出基於相對頻率加權法的自動標引方法[6]
- 1960年,Maron & Kuhns提出基於相關概率的賦詞標引方法[7]
- 1969年,H.P.Edmundson提出了一些新的加權方法,如提示詞(預示詞)加權法、題名加權法、位置加權法,並探討了不同加權法的最優組合問題[8]
- 1970年,Lois L. Earl利用句法分析等語言學方法與詞頻統計方法相結合的方法來提取關鍵詞[9]
- 1973年,Salton等提出基於詞區分值的自動標引方法[10]
- 1975年,Salton等將VSM模型用於自動標引中[11]
- 1983年,Dillon等提出一種基於概念的自動標引方法,研製了FASIT系統[12]
- 1985年,Devadason提出基於深層結構標引方法[13]
- 1990年,Deerwester & Dumais等提出潛在語義分析標引法[14]
- 1993年,Silva & Milidiu提出基於相信函數模型的賦詞標引方法[15]
- 1995年,Cohen提出N-Gram分析法的自動標引方法[16]
- 1997年,簡立峰提出基於PAT樹的關鍵詞提取方法[17]
- 1999年,Frank等人提出基於樸素貝葉斯(Naive Bayes,NB)的關鍵詞提取方法[18] ;Turney 利用遺傳算法和C4.5決策樹算法等機器學習方法進行關鍵短語提取的研究[19]
- 2001年,Anjewierden & Kabel提出基於本體的自動標引方法[20]
- 2003年,Tomokiyo & Hurst提出了基於語言模型的關鍵詞提取方法[21];Hulth利用Bagging算法進行了基於集成學習的關鍵詞抽取[22]
- 2004年,李素建提出基於最大熵模型的關鍵詞提取方法[2]
- 2006年,張闊提出基於支持向量機自動標引模型[23]
- 2007年,Ercan, G. & Cicekli, I提出基於詞彙鏈的自動標引方法[24]
參考文獻
[編輯]- ^ 曾元顯. 關鍵詞自動提取技術與相關詞反饋. 中國圖書館學會會報, 1997, 59: 59-64.
- ^ 2.0 2.1 李素建, 王厚峰, 俞士汶, 辛乘勝.關鍵詞自動標引的最大熵模型應用研究.計算機學報, 2004, 27(9):1192-1197.
- ^ Luhn H P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1957, 1(4): 309-317.
- ^ Luhn H P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 1958. 2(2): 159-165.
- ^ Baxendale P E. Machine-made Index for Technical Literature——an Experiment. IBM. Journal of Research and Development, 1958, 2(4): 354-361.
- ^ Edmundson H P, Oswald V A. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles, 1959: 1-142.
- ^ Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the Association for Computer Machinery, 1960, 7(3): 216-244.
- ^ Edmundson H P. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery, 1969, 16(2): 264-285.
- ^ Lois L E. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 1970, 6: 313-334.
- ^ Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 1973, 29(4): 351-72.
- ^ Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing. Communications of ACM, 1975, 18(11): 613-620.
- ^ Dillon M, Gray A S. FASIT: A Fully Automated Syntactically Based Indexing System. Journal of the American Society for Information Science, 1983, 34(2): 99-108.
- ^ Devadason F. Computerization of Deep Structure Based Indexes. International Classification, 1985, 12(2): 87-94.
- ^ Deerwester S, Dumais S T, Landauer T K, Furnas G W, Harshman R A. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
- ^ Silva W T, MiliDiu R L. Belief Function Model for Information Retrieval. Jounral of the American Society for Information Science, 1993, 44(1): 10-18.
- ^ Cohen J D. Highlights: Language and Domain-independent Automatic Indexing Terms for Abstracting. Journal of the American Society for Information Science, 1995, 46(3): 162-174.
- ^ Chien L F. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR1997), Philadelphia, PA, USA, 1997: 50-59.
- ^ Frank E, Paynter G W, Witten I H. Domain-Specific Keyphrase Extraction. In: Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence, Stockholm, Sweden, Morgan Kaufmann, 1999: 668-673.
- ^ Turney P D. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council, Canada. 1999: 1-43.
- ^ Anjewierden A, Kabel S. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam, Neteherlands, 2001: 23-30.
- ^ Tomokiyo T, Hurst M. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition & Treatment, Sapporo, Japan, 2003: 33-40.
- ^ Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo, Japan, 2003: 216-223.
- ^ Zhang K, Xu H, Tang J, Li J Z. Keyword Extraction Using Support Vector Machine. In: Proceedings of the Seventh International Conference on Web-Age Information Management (WAIM2006), Hong Kong, China, 2006: 85-96.
- ^ Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 2007, 43(6): 1705-1714.