文本挖掘

维基百科,自由的百科全书
跳转至: 导航搜索

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类文本聚类概念/实体挖掘,生产精确分类,观点分析文档摘要实体关系模型(即,学习已命名实体之间的关系) 。

历史[编辑]

劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速取得进展。文本挖掘已经是信息检索数据挖掘机器学习统计以及计算语言学学科中的重要领域。由于目前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。

多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。

观点[编辑]

应用[编辑]

安全应用[编辑]

生物医学应用[编辑]

软件和应用[编辑]

营销应用[编辑]

学术应用[编辑]

软件和应用[编辑]

  • 方正智思系统软件 方正智思可以实现关键词提取、自动分类、相似搜索、消重、自动主题检测等等基于中文文本自然语言处理的相关解决方案。典型应用见 方正产品总监李崇纲进行的有关方正智思互联网舆情分析系统的主题演讲http://www.cnetnews.com.cn/2008/1130/1259368.shtml
  • 语擎科技无预设实时分析工具 - 语擎公司对文本的预处理采用了类似搜索引擎的数据结构,使基于关键词的文本挖掘和分析具有秒级的运算效率。语擎的实时多维统计工具、全范围关键词关系表以及作者知识表达等都是开创性的技术。

[1]

  • 赛仕软件 - 包括赛仕文本挖掘和泰码语言解决方案 - 针对信息管理的商业文本分析,自然语言处理和自动分类软件. [2]

开源软件和应用[编辑]

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

涵义[编辑]

注意[编辑]

参考资料[编辑]

更多链接[编辑]