自动标引

维基百科,自由的百科全书
跳转至: 导航搜索

自动标引英语Automatic Indexing)包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术[1]。关键词自动提取在文本挖掘域被称为关键词抽取(英语Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(英语Automatic Term Recognition),在信息检索领域,就是指自动标引。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。

作用[编辑]

由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动文摘、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术。目前大多文档都不具有关键词,同时手工标引费力费时且主观性较强, 因此关键词自动标引是一项值得研究的技术[2]

发展过程[编辑]

自动标引研究可以分为三个阶段: 从Luhn于1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。一直到20世纪90年代初,关于关键词自动提取的研究一直就没有停止过。 20世纪90年代初到90年代末,自动标引研究渐渐冷却,原因主要包括:全文索引逐渐被人采用,并且基本上能满足用户需要;传统的自动标引方法的效率到了极限;网络兴起之初的冲击与信息需求环境的改变。20世纪90年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年,关键词自动提取研究进行的如火如荼,产生该现象的主要原因为:全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果;另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高信息服务质量。

代表方法[编辑]

根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。

  • 1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位[3]
  • 1958年,Luhn提出基于绝对频率加权法的自动标引方法[4] ; P.B.Baxendale提出从论题句和介词短语中自动提取关键词[5]
  • 1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法[6]
  • 1960年,Maron & Kuhns提出基于相关概率的赋词标引方法[7]
  • 1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题[8]
  • 1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词[9]
  • 1973年,Salton等提出基于词区分值的自动标引方法[10]
  • 1975年,Salton等将VSM模型用于自动标引中[11]
  • 1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统[12]
  • 1985年,Devadason提出基于深层结构标引方法[13]
  • 1990年,Deerwester & Dumais等提出潜在语义分析标引法[14]
  • 1993年,Silva & Milidiu提出基于相信函数模型的赋词标引方法[15]
  • 1995年,Cohen提出N-Gram分析法的自动标引方法[16]
  • 1997年,简立峰提出基于PAT树的关键词提取方法[17]
  • 1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法[18] ;Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究[19]
  • 2001年,Anjewierden & Kabel提出基于本体的自动标引方法[20]
  • 2003年,Tomokiyo & Hurst提出了基于语言模型的关键词提取方法[21];Hulth利用Bagging算法进行了基于集成学习的关键词抽取[22]
  • 2004年,李素建提出基于最大熵模型的关键词提取方法[2]
  • 2006年,张阔提出基于支持向量机自动标引模型[23]
  • 2007年,Ercan, G. & Cicekli, I提出基于词汇链的自动标引方法[24]

典型应用[编辑]

  1. 汉语自动标引加权方法试验研究 1994年 史继红、赖茂生 北京大学信息管理系
  2. 自动标引“匹配标引法”原理 1994年 袁庆华 总后档案馆
  3. 语义矢量空间模式 (SVSM)及其试验评价——自然语言处理与文献自动标引 1996年 Geoffrey Z. Liu 美国加利福尼亚州圣何塞州立大学图书情报学院
  4. 文书档案主题自动标引系统的设计与实践 1996年 兰生柱、尹秀兰等 解放军档案馆
  5. 统计方法结合受限自然语言理解技术用模糊方法抽取关键词 1998年 何新贵、彭甫阳 北京系统工程研究所
  6. 主题转译标引技术 1998年 陈光华 台湾大学图书馆和信息科学系
  7. 对规范文本篇章结构 1998年 单永明 山西大学计算机系
  8. 科技文献主题词的自动标引法 1998年 石国华 杭州大学
  9. 中文科技文献题内自动抽词标引系统 1998年 邵艳秋、刘挺等 黑龙江交通高等专科学校计算中心、哈尔滨工业大学计算机系
  10. 针对生物学文献 1999年 王永成、韩客松等 上海交通大学
  11. 单汉字标引技术 1999年 胡盈盈 南京大学
  12. 基于《中国分类主题词表》的WWW科技信息资源自动标引设计方案 1999年 肖明 北京师范大学信息技术与管理学系
  13. 网络环境下档案主题自动标引的实现方法 1999年 熊志云 湖北大学人文学院档案系
  14. 公安文献全文著录、机助标引及检索系统(PWDBC) 2000年 江苏公安专科学校
  15. 计算机模糊检索在图书自动标引中的应用 2000年 许玲 曲阜师范大学图书馆
  16. 基于中国档案主题词表的自动标引控制研究 2002年 王兰成等 南京政治学院上海分院信息管理系
  17. 基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 2002年 查贵庭、侯汉清 南京农业大学信息管理系
  18. 字面相似聚类法辅助构造词族表、分面类表和自动标引 2002年 张琪玉 南京政治学院上海分院信息管理系
  19. 网页自动标引方案的优选及标引性能的测评 2002年 仲云云、侯汉清等 南京农业大学信息管理系

参考文献[编辑]

  1. ^ 曾元显. 关键词自动提取技术与相关词反馈. 中国图书馆学会会报, 1997, 59: 59-64.
  2. ^ 2.0 2.1 李素建, 王厚峰, 俞士汶, 辛乘胜.关键词自动标引的最大熵模型应用研究.计算机学报, 2004, 27(9):1192-1197.
  3. ^ Luhn H P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1957, 1(4): 309-317.
  4. ^ Luhn H P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 1958. 2(2): 159-165.
  5. ^ Baxendale P E. Machine-made Index for Technical Literature——an Experiment. IBM. Journal of Research and Development, 1958, 2(4): 354-361.
  6. ^ Edmundson H P, Oswald V A. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles, 1959: 1-142.
  7. ^ Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the Association for Computer Machinery, 1960, 7(3): 216-244.
  8. ^ Edmundson H P. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery, 1969, 16(2): 264-285.
  9. ^ Lois L E. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 1970, 6: 313-334.
  10. ^ Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 1973, 29(4): 351-72.
  11. ^ Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing. Communications of ACM, 1975, 18(11): 613-620.
  12. ^ Dillon M, Gray A S. FASIT: A Fully Automated Syntactically Based Indexing System. Journal of the American Society for Information Science, 1983, 34(2): 99-108.
  13. ^ Devadason F. Computerization of Deep Structure Based Indexes. International Classification, 1985, 12(2): 87-94.
  14. ^ Deerwester S, Dumais S T, Landauer T K, Furnas G W, Harshman R A. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
  15. ^ Silva W T, MiliDiu R L. Belief Function Model for Information Retrieval. Jounral of the American Society for Information Science, 1993, 44(1): 10-18.
  16. ^ Cohen J D. Highlights: Language and Domain-independent Automatic Indexing Terms for Abstracting. Journal of the American Society for Information Science, 1995, 46(3): 162-174.
  17. ^ Chien L F. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR1997), Philadelphia, PA, USA, 1997: 50-59.
  18. ^ Frank E, Paynter G W, Witten I H. Domain-Specific Keyphrase Extraction. In: Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence, Stockholm, Sweden, Morgan Kaufmann, 1999: 668-673.
  19. ^ Turney P D. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council, Canada. 1999: 1-43.
  20. ^ Anjewierden A, Kabel S. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam, Neteherlands, 2001: 23-30.
  21. ^ Tomokiyo T, Hurst M. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition & Treatment, Sapporo, Japan, 2003: 33-40.
  22. ^ Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo, Japan, 2003: 216-223.
  23. ^ Zhang K, Xu H, Tang J, Li J Z. Keyword Extraction Using Support Vector Machine. In: Proceedings of the Seventh International Conference on Web-Age Information Management (WAIM2006), Hong Kong, China, 2006: 85-96.
  24. ^ Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 2007, 43(6): 1705-1714.

外部链接[编辑]

  1. http://sites.google.com/site/zhangczhomepage/keyword-extraction