本頁使用了標題或全文手工轉換

文字挖掘

維基百科,自由的百科全書
跳至導覽 跳至搜尋

文字挖掘有時也被稱為文字探勘、文字數據探勘等,大致相當於文字分析,一般指文字處理過程中產生高質素的資訊。高質素的資訊通常通過分類和預測來產生,如圖形辨識。文字挖掘通常涉及輸入文字的處理過程(通常進行分析,同時加上一些衍生語言特徵以及消除雜音,隨後插入到數據庫中) ,產生結構化數據,並最終評價和解釋輸出。'高質素'的文字挖掘通常是指某種組合的相關性,新穎性和趣味性。典型的文字挖掘方法包括文字分類文字群集概念/實體挖掘,生產精確分類,觀點分析文件摘要實體關係模型(即,學習已命名實體之間的關係) 。 文字分析包括了資訊檢索、詞典分析來研究詞語的頻數分佈、圖形辨識、標籤\注釋、資訊抽取,數據探勘技術包括連結和關聯分析、視覺化和預測分析。本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文字轉化為數據進行分析。

文字挖掘與文字分析[編輯]

歷史[編輯]

勞工密集型的人工純文字挖掘方法最早出現在20世紀80年代中期,但在過去的十年中,技術的進步已經使這一領域迅速取得進展。文字挖掘已經是資訊檢索數據探勘機器學習統計以及計算語言學學科中的重要領域。由於目前的大多數資訊(80%)是以文字的形式來儲存,文字挖掘被認為具有較高的商業潛在價值。

多語種數據探勘已經越來越多的引起人們的興趣:能夠根據自己的意願從跨語種的文字來源中挖掘出有用的資訊。

文字分析過程[編輯]

應用[編輯]

安全應用[編輯]

許多文字挖掘的軟件包是面對安全裝置的。它們多數是出於國家安全的的目的,監控和分析類似於互聯網新聞網誌等的線上純文字。 [1] 對文字挖掘的研究還被包含在文字解密的領域中。

生物醫學應用[編輯]

軟件應用[編輯]

線上媒體應用[編輯]

行銷應用[編輯]

情感分析[編輯]

學術應用[編輯]

數碼人文學與計算社會學[編輯]

軟件和應用[編輯]

開源軟件和應用[編輯]

Weka工具 http://www.cs.waikato.ac.nz/ml/weka/

知識產權法與文字挖掘[編輯]

影響[編輯]

注釋[編輯]

  1. ^ Zanasi, Alessandro. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing 53: 53. 2009. ISBN 978-3-540-88180-3. doi:10.1007/978-3-540-88181-0_7. 

參考資料[編輯]

更多連結[編輯]