文本挖掘:修订间差异
删除的内容 添加的内容
小 回退210.3.239.131(对话)的编辑,改回陳寅恪的最后一个版本 |
补救5个来源,并将0个来源标记为失效。) #IABot (v2.0.8.5 |
||
第38行: | 第38行: | ||
===开源软件和应用=== |
===开源软件和应用=== |
||
Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ |
Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ {{Wayback|url=http://www.cs.waikato.ac.nz/ml/weka/ |date=20111028090649 }} |
||
==知识产权法与文本挖掘== |
==知识产权法与文本挖掘== |
||
第54行: | 第54行: | ||
== 更多链接== |
== 更多链接== |
||
* http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ MUC |
* http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ {{Wayback|url=http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ |date=20181215171607 }} MUC |
||
* http://projects.ldc.upenn.edu/ace/ ACE (LDC) |
* http://projects.ldc.upenn.edu/ace/ {{Wayback|url=http://projects.ldc.upenn.edu/ace/ |date=20130925194420 }} ACE (LDC) |
||
* https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST) |
* https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST) |
||
* https://web.archive.org/web/20070928002315/http://www.arts-humanities.net/text_mining (Discussion group text mining) |
* https://web.archive.org/web/20070928002315/http://www.arts-humanities.net/text_mining (Discussion group text mining) |
||
* [https://web.archive.org/web/20081219034958/http://portal.tapor.ca/ Text Analysis Portal for Research (TAPoR)] |
* [https://web.archive.org/web/20081219034958/http://portal.tapor.ca/ Text Analysis Portal for Research (TAPoR)] |
||
* http://textanalytics.wikidot.com/ Text Analytics Wiki |
* http://textanalytics.wikidot.com/ {{Wayback|url=http://textanalytics.wikidot.com/ |date=20210117224747 }} Text Analytics Wiki |
||
* [http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.0040020;jsessionid=7C485EC9A7B5B0B48AB12894E268DB7A Getting started in text mining] |
* [http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.0040020;jsessionid=7C485EC9A7B5B0B48AB12894E268DB7A Getting started in text mining] {{Wayback|url=http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.0040020;jsessionid=7C485EC9A7B5B0B48AB12894E268DB7A |date=20111107050856 }} |
||
* [https://web.archive.org/web/20100925122159/http://erabaki.ehu.es/jjga/pimiento/ Pimiento] A Text-Mining Application Framework written in Java. |
* [https://web.archive.org/web/20100925122159/http://erabaki.ehu.es/jjga/pimiento/ Pimiento] A Text-Mining Application Framework written in Java. |
||
2021年12月20日 (一) 03:38的版本
此條目可参照英語維基百科相應條目来扩充。 (2019年5月9日) |
文本挖掘(Text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。
文本挖掘与文本分析
历史
劳工密集型的人工纯文字挖掘方法最早出现在20世纪80年代中期,但在过去的十年中,技术的进步已经使这一领域迅速取得进展。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。由于目前的大多数信息(80%)是以文本的形式来保存,文本挖掘被认为具有较高的商业潜在价值。
多语种数据挖掘已经越来越多的引起人们的兴趣:能够根据自己的意愿从跨语种的文字来源中挖掘出有用的信息。
文本分析过程
应用
安全应用
许多文本挖掘的软件包是面对安全设备的。它们多数是出于国家安全的的目的,监控和分析类似于互联网新闻、博客等的在线纯文本。 [1] 对文本挖掘的研究还被包含在文本解密的领域中。
生物医学应用
软件应用
在线媒体应用
营销应用
情感分析
学术应用
数位人文学与计算社会学
软件和应用
开源软件和应用
Weka工具 http://www.cs.waikato.ac.nz/ml/weka/ (页面存档备份,存于互联网档案馆)
知识产权法与文本挖掘
影响
注释
- ^ Zanasi, Alessandro. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing 53: 53. 2009. ISBN 978-3-540-88180-3. doi:10.1007/978-3-540-88181-0_7.
参考资料
- Ronen Feldman and James Sanger, The Text Mining Handbook, Cambridge University Press, ISBN 9780521836579
- Kao Anne, Poteet, Steve R. (Editors), Natural Language Processing and Text Mining, Springer, ISBN 184628175X
- Konchady Manu "Text Mining Application Programming (Programming Series)" by Manu Konchady, Charles River Media, ISBN 1584504609
- M. Ikonomakis, S. Kotsiantis, V. Tampakas, Text Classification Using Machine Learning Techniques, WSEAS Transactions on Computers, Issue 8, Volume 4, August 2005, pp. 966-974 (https://web.archive.org/web/20081203004649/http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final%20journal.pdf)
更多链接
- http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ (页面存档备份,存于互联网档案馆) MUC
- http://projects.ldc.upenn.edu/ace/ (页面存档备份,存于互联网档案馆) ACE (LDC)
- https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST)
- https://web.archive.org/web/20070928002315/http://www.arts-humanities.net/text_mining (Discussion group text mining)
- Text Analysis Portal for Research (TAPoR)
- http://textanalytics.wikidot.com/ (页面存档备份,存于互联网档案馆) Text Analytics Wiki
- Getting started in text mining (页面存档备份,存于互联网档案馆)
- Pimiento A Text-Mining Application Framework written in Java.
|