資料探勘

數據挖掘（英語：Data mining）是一個跨學科的計算機科學分支^[1]^[2]^[3] 。它是用人工智能、機器學習、統計學和數據庫的交叉方法在相對較大型的數據集中發現模式的計算過程^[1]。

數據挖掘過程的總體目標是從一個數據集中提取信息，並將其轉換成可理解的結構，以進一步使用^[1]。除了原始分析步驟，它還涉及到數據庫和數據管理方面、數據預處理（英語：data pre-processing）、模型與推斷方面考量、興趣度度量、複雜度的考慮，以及發現結構、可視化及在線更新等後處理^[1]。數據挖掘是「資料庫知識發現」（Knowledge-Discovery in Databases, KDD）的分析步驟^[4] ，本質上屬於機器學習的範疇。

類似詞語「資料採礦」、「數據捕魚」和「數據探測」指用數據挖掘方法來採樣（可能）過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體數據集的部分。不過這些方法可以建立新的假設來檢驗更大數據總體。

歷史

資料探勘是因為海量有用資料快速增長的產物。使用計算機進行歷史資料分析，1960年代數字方式採集資料已經實現。1980年代，關係數據庫隨著能夠適應動態按需分析資料的結構化查詢語言發展起來。數據倉庫開始用來存儲大量的資料。

因為面臨處理資料庫中大量資料的挑戰，於是資料探勘應運而生，對於這些問題，它的主要方法是資料統計分析和人工智能搜索技術。

定義

資料探勘有以下這些不同的定義：

「從資料中提取出隱含的過去未知的有價值的潛在信息」^[5]
「一門從大量資料或資料庫中提取有用信息的科學」^[6]

儘管通常資料探勘應用於資料分析，但是像人工智能一樣，它也是一個具有豐富含義的詞彙，可用於不同的領域。它與KDD(Knowledge discovery in databases)的關係是：KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程；而數據挖掘是KDD通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。事實上，在現今的文獻中，這兩個術語經常不加區分的使用。

本質

數據挖掘本質上屬於機器學習的內容。

例如《數據挖掘：實用機器學習技術及Java實現》一書^[7]大部分是機器學習的內容。這本書最初只叫做「實用機器學習」，「數據挖掘」一詞是後來為了營銷才加入的^[8]。通常情況下，使用更為正式的術語，（大規模）數據分析和分析學，或者指出實際的研究方法（例如人工智能和機器學習）會更準確一些。

過程

數據挖掘的實際工作是對大規模數據進行自動或半自動的分析，以提取過去未知的有價值的潛在信息，例如數據的分組（通過聚類分析）、數據的異常記錄（通過異常檢測）和數據之間的關係（通過關聯式規則挖掘）。這通常涉及到數據庫技術，例如空間索引（英語：spatial index）。這些潛在信息可通過對輸入數據處理之後的總結來呈現，之後可以用於進一步分析，比如機器學習和預測分析。舉個例子，進行數據挖掘操作時可能要把數據分成多組，然後可以使用決策支持系統以獲得更加精確的預測結果。不過數據收集、數據預處理、結果解釋和撰寫報告都不算數據挖掘的步驟，但是它們確實屬於「資料庫知識發現」（KDD）過程，只不過是一些額外的環節。

數據庫知識發現（KDD）過程通常定義為以下階段：

(1) 選擇

(2) 預處理

(3) 變換

(4) 數據挖掘

(5) 解釋/評估。^[4]

預處理

在運用數據挖掘算法之前，必須收集目標數據集。由於數據挖掘只能發現實際存在於數據中的模式，目標數據集必須大到足以包含這些模式，而其餘的足夠簡潔以在一個可接受的時間範圍內挖掘。常見的數據源如資料超市或資料倉儲。在數據挖掘之前，有必要預處理來分析多變量數據。然後要清理目標集。數據清理移除包含噪聲和含有缺失數據的觀測量。

數據挖掘

數據挖掘涉及六類常見的任務： ^[4]

異常檢測（異常/變化/偏差檢測）– 識別不尋常的數據記錄，錯誤數據需要進一步調查。
關聯規則學習（依賴建模）– 搜索變量之間的關係。例如，一個超市可能會收集顧客購買習慣的數據。運用關聯規則學習，超市可以確定哪些產品經常一起買，並利用這些信息幫助營銷。這有時被稱為市場購物籃分析。
聚類 – 是在未知數據的結構下，發現數據的類別與結構。
分類 – 是對新的數據推廣已知的結構的任務。例如，一個電子郵件程序可能試圖將一個電子郵件分類為「正常郵件」或「垃圾郵件」。
迴歸 – 試圖找到能夠以最小誤差對該數據建模的函數。
匯總（英語：Automatic summarization） – 提供了一個更緊湊的數據集表示，包括生成可視化和報表。

結果驗證

數據挖掘的價值一般帶着一定的目的，而這目的是否得到實現一般可以通過結果驗證來實現。驗證是指「通過提供客觀證據對規定要求已得到滿足的認定」，而這個「認定」活動的策劃、實施和完成，與「規定要求」的內容緊密相關。數據挖掘過程中的數據驗證的「規定要求」的設定，往往與數據挖掘要達到的基本目標、過程目標和最終目標有關。驗證的結果可能是「規定要求」得到完全滿足，或者完全沒有得到滿足，以及其他介於兩者之間的滿足程度的狀況。驗證可以由數據挖掘的人自己完成，也可以通過其他人參與或完全通過他人的項目，以與數據挖掘者毫無關聯的方式進行驗證。一般驗證過程中，數據挖掘者是不可能不參與的，但對於認定過程中的客觀證據的收集、認定的評估等過程如果通過與驗證提出者無關的人來實現，往往更具有客觀性。通過結果驗證，數據挖掘者可以得到對自己所挖掘的數據價值高低的評估。

隱私問題及倫理^[9]

與資料探勘有關的，還牽扯到隱私問題，例如：一個僱主可以透過訪問醫療記錄來篩選出那些有糖尿病或者嚴重心臟病的人，從而意圖削減保險支出。然而，這種做法會導致倫理和法律問題。

對於政府和商業資料的挖掘，可能會涉及到的，是國家安全或者商業機密之類的問題。這對於保密也是個不小的挑戰。^[10]

資料探勘有很多合法的用途，例如可以在患者群的資料庫中查出某藥物和其副作用的關聯。這種關聯可能在1000人中也不會出現一例，但藥物學相關的項目就可以運用此方法減少對藥物有不良反應的病人數量，還有可能挽救生命；但這當中還是存在着資料庫可能被濫用的問題。

資料探勘實現了用其他方法不可能實現的方法來發現資訊，但它必須受到規範，應當在適當的說明下使用。

如果資料是收集自特定的個人，那麼就會出現一些涉及保密、法律和倫理的問題。^[11]

2018年5月25日，歐盟一般資料保護規範(General Data Protection Regulation，GDPR)正式上路，保障個人資料蒐集的同意權與刪除要求，在進入網站時會進行個人資料蒐集、處理及利用之告知，並在當事人同意之下做蒐集。^[12]

方法

數據挖掘的方法包括監督式學習、非監督式學習、半監督學習、增強學習。監督式學習包括：分類、估計、預測。非監督式學習包括：聚類，關聯規則分析。

例子

數據挖掘在零售行業中的應用：零售公司跟蹤客戶的購買情況，發現某個客戶購買了大量的真絲襯衣，這時資料探勘系統就在此客戶和真絲襯衣之間建立關聯。銷售部門就會看到此信息，直接發送真絲襯衣的當前行情，以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過資料探勘系統就發現了以前未知的關於客戶的新信息，並且擴大經營範圍。

數據捕撈

通常作為與資料倉庫和分析相關的技術，資料探勘處於它們的中間。然而，有時還會出現十分可笑的應用，例如發掘出不存在但看起來振奮人心的模式（特別的因果關係），這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯，在統計學文獻裡通常被戲稱為「資料挖泥（英語：Data dredging）」（Data dredging, data fishing, or data snooping）。

資料探勘意味著掃瞄可能存在任何關係的資料，然後篩選出符合的模式，（這也叫作「過度匹配模式」）。大量的數據集中總會有碰巧或特定的資料，有著「令人振奮的關係」。因此，一些結論看上去十分令人懷疑。儘管如此，一些探索性資料分析還是需要應用統計分析尋找資料，所以好的統計方法和數據資料的界限並不是很清晰。

更危險是出現根本不存在的關聯性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的遊艇在哪裡？》的書中寫道：「總是有相當數量的可憐人，忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是，他們通常會找到。」^[13]

多數的資料探勘研究都關注於發現大量的資料集中，一個高度詳細的模式。在《大忙人的資料探勘》一書中，西弗吉尼亞大學和不列顛哥倫比亞大學研究者討論了一個交替模式，用來發現一個資料集當中兩個元素的最小區別，它的目標是發現一個更簡單的模式來描述相關數據。^[14]

參見

方法

異常/變化檢測
關聯式規則
分類問題
聚類分析
決策樹
因子分析
遺傳算法
意圖挖掘（英語：Intention mining）
多線性子空間學習（英語：Multilinear subspace learning）
人工神經網絡
迴歸分析
序列挖掘（英語：Sequence mining）
結構化數據分析（英語：Structured data analysis (statistics)）
支持向量機
文本挖掘
代理挖掘（英語：Agent mining）

應用領域

應用實例

相關主題

數據挖掘是關於分析數據的；有關從數據中提取信息的信息，參見：

數據集成
數據變換（英語：Data transformation）
電子發現（英語：Electronic discovery）
信息抽取
信息融合
命名實體識別
資料搜集（英語：Profiling (information science)）
網頁抓取

參考文獻

^ ^1.0 ^1.1 ^1.2 ^1.3 Data Mining Curriculum. ACM SIGKDD（英語：SIGKDD）. 2006-04-30 [2014-01-27]. （原始內容存檔於2013-10-14）.
^ Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09]. （原始內容存檔於2011-02-05）.
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. （原始內容存檔於2009-11-10）.
^ ^4.0 ^4.1 ^4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008]. （原始內容 (PDF)存檔於2009-11-06）.
^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.
^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0.
^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.
^ 《大數據及語意分析的大航海時代》數據的隱私權是否有疑慮?. 飛碟聯播網. 2019-06-02. （原始內容存檔於2020-04-14）.
^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.
^ 個人資料保護辦公室 7月10日正式上路. 自由時報. 2018-06-26. （原始內容存檔於2019-12-12）.
^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162.

延伸閱讀

Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall, ISBN 0-13-743980-6
M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective （頁面存檔備份，存於網際網路檔案館）". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press, ISBN 978-0-521-83657-9
Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
Liu, Bing (2007); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, ISBN 3-540-37881-2
Murphy, Chris. Is Data Mining Free Speech?. InformationWeek (UMB). 16 May 2011: 12.
Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier, ISBN 978-0-12-374765-5
Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference, ISBN 978-1-59904-162-9
Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining, ISBN 0-321-32136-7
Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0
Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. (See also Free Weka software)
Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum

外部連結

[acm-1] 1.0 ^1.1 ^1.2 ^1.3 Data Mining Curriculum. ACM SIGKDD（英語：SIGKDD）. 2006-04-30 [2014-01-27]. （原始內容存檔於2013-10-14）.

[brittanica-2] Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09]. （原始內容存檔於2011-02-05）.

[elements-3] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. （原始內容存檔於2009-11-10）.

[Fayyad-4] 4.0 ^4.1 ^4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008]. （原始內容 (PDF)存檔於2009-11-06）.

[5] W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.

[6] D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .

[witten-7] Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0.

[8] Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.

[9] 《大數據及語意分析的大航海時代》數據的隱私權是否有疑慮?. 飛碟聯播網. 2019-06-02. （原始內容存檔於2020-04-14）.

[10] K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .

[11] Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.

[12] 個人資料保護辦公室 7月10日正式上路. 自由時報. 2018-06-26. （原始內容存檔於2019-12-12）.

[13] Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .

[14] T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

閱論編機器學習同數據挖掘主題
基本概念	學習 · 圖靈測試 · 運算學習論
數學模型	迴歸模型 · 人工神經網絡（深度學習） · 生成對抗網絡 · Transformer模型 · 大語言模型 · 決策樹 · 貝氏網路 · 支持向量機 · 關聯規則學習
學習範式	機器學習 · 深度學習 · 遷移學習 · 微調 (深度學習) · 監督學習 · 半監督學習 · 無監督學習 · 強化學習 · Q學習 · 遺傳演算法
主要應用	統計分類 · 表徵學習 · 降維 · 聚類分析 · 異常檢測
相關領域	計算科學 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 統計學 · 數據科學 · 計算機科學 · 信息與計算科學 · 神經科學 · 認知科學

閱論編計算機科學的主要領域
註：該模板大致遵循ACM 電腦分類系統。
計算機硬件	印刷電路板外部設備集成電路超大規模集成電路綠色計算電子設計自動化
系統架構組織	電腦系統架構嵌入式系統實時計算
網絡	網絡傳輸協議路由網絡拓撲網絡服務
軟件組織	直譯器中間件虛擬機器操作系統軟件質量
軟件符號和工具	編程范型編程語言編譯器領域特定語言軟體框架集成開發環境軟件配置管理函式庫
軟件開發	軟件開發過程需求分析軟件設計軟件部署軟體維護開源模式
計算理論	自動機可計算性理論計算複雜性理論量子計算數值計算方法計算機邏輯形式語義學
算法	算法分析算法設計算法效率隨機化算法計算幾何
計算數學	離散數學信息與計算科學統計學數學軟件數理邏輯集合論數論圖論類型論範疇論信息論數值分析數學分析
信息系統	數據庫管理系統電腦數據企業信息系統社會性軟件地理信息系統決策支持系統過程控制數據挖掘數位圖書館系統平台數位行銷萬維網信息檢索
安全	密碼學形式化方法入侵檢測系統網絡安全信息安全
人機交互	計算機輔助功能用戶界面可穿戴計算機普適計算虛擬現實聊天機器人
並發性	並發計算並行計算分布式計算多線程多元處理
人工智能	自動推理計算語言學計算機視覺進化計算專家系統自然語言處理機器人學
機器學習	監督式學習無監督學習強化學習交叉驗證
計算機圖形學	計算機動畫可視化渲染修飾照片圖形處理器混合現實虛擬現實圖像處理圖像壓縮實體造型
應用計算	電子商務企業級軟件計算數學計算物理學計算化學計算生物學計算社會科學醫學信息學數字藝術電子出版網絡戰電子遊戲文字處理器運籌學教育技術學生物信息學認知科學文件管理系統（英語：Document management system）
分類主題專題維基共享

歷史

定義

本質

過程

預處理