本頁使用了標題或全文手工轉換

資料探勘

維基百科,自由的百科全書
跳到: 導覽搜尋
Confusion grey.svg
提示:本條目的主題不是信息抽取數據分析

資料探勘Data mining)是一個跨學科的電腦科學分支。[1][2][3] 它是用人工智能機器學習統計學數據庫的交叉方法在相對較大型的數據集英語data set中發現模式的計算過程。[1] 資料探勘過程的總體目標是從一個數據集中提取資訊,並將其轉換成可理解的結構,以進一步使用。[1] 除了原始分析步驟,它還涉及到數據庫和數據管理方面、數據預處理英語data pre-processing模型推斷方面考量、興趣度度量、複雜度的考慮,以及發現結構、視覺化線上更新等後處理。[1] 資料探勘是「數據庫知識發現」(KDD)的分析步驟。[4]

這個術語其實是誤稱英語misnomer,因為目標是從大量數據中提取模式和知識,而不是(探勘)數據本身。[5] 它也是一個流行語[6]而且經常用於大規模數據或資訊處理數據採集英語Data collection數據提取數據儲存數據分析和數據統計),還有決策支援系統方面的應用(包括人工智能機器學習商業智能)。《資料探勘:實用機器學習技術及Java實作》一書[7]大部分是機器學習的內容。這本書最初只叫做「實用機器學習」,「資料探勘」一詞是後來為了行銷才加入的。[8]通常情況下,使用更為正式的術語,(大規模)數據分析分析學,或者指出實際的研究方法(例如人工智能和機器學習)會更準確一些。

資料探勘的實際工作是對大規模數據進行自動或半自動的分析,以提取過去未知的有價值的潛在資訊,例如數據的分組(通過聚類分析)、數據的異常記錄(通過異常檢測)和數據之間的關係(通過關聯式規則挖掘)。這通常涉及到數據庫技術,例如空間索引英語spatial index。這些潛在資訊可通過對輸入數據處理之後的總結來呈現,之後可以用於進一步分析,比如機器學習和預測分析。舉個例子,進行資料探勘操作時可能要把數據分成多組,然後可以使用決策支援系統以獲得更加精確的預測結果。不過數據收集、數據預處理、結果解釋和撰寫報告都不算資料探勘的步驟,但是它們確實屬於「數據庫知識發現」(KDD)過程,只不過是一些額外的環節。

類似詞語「資料挖泥英語data dredging」、「數據捕魚」和「數據探測」指用資料探勘方法來採樣(可能)過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體數據集的部分。不過這些方法可以建立新的假設來檢驗更大數據總體。

歷史[編輯]

數據挖掘是因為海量有用數據快速增長的產物。使用計算機進行歷史數據分析,1960年代數字方式採集數據已經實現。1980年代,關聯式資料庫隨着能夠適應動態按需分析數據的結構化查詢語言發展起來。資料倉儲開始用來存儲大量的數據。

因為面臨處理數據庫中大量數據的挑戰,於是數據挖掘應運而生,對於這些問題,它的主要方法是數據統計分析人工智能搜尋技術。

定義[編輯]

數據挖掘有以下這些不同的定義:

  1. 「從數據中提取出隱含的過去未知的有價值的潛在資訊」[9]
  2. 「一門從大量數據或者數據庫中提取有用資訊的科學。」[10]

儘管通常數據挖掘應用於數據分析,但是像人工智能一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD的關係是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD通過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。

過程[編輯]

數據庫知識發現(KDD)過程通常定義為以下階段:

(1) 選擇
(2) 預處理
(3) 變換
(4) 資料探勘
(5) 解釋/評估。[4]

預處理[編輯]

在運用資料探勘演算法之前,必須收集目標數據集。由於資料探勘只能發現實際存在於數據中的模式,目標數據集必須大到足以包含這些模式,而其餘的足夠簡潔以在一個可接受的時間範圍內挖掘。常見的資料來源如資料超市資料倉儲。在資料探勘之前,有必要預處理來分析多變數數據。然後要清理目標集。數據清理移除包含噪聲英語statistical noise和含有缺失數據的觀測量。

資料探勘[編輯]

資料探勘涉及六類常見的任務: [4]

  • 異常檢測(異常/變化/偏差檢測)– 識別不尋常的數據記錄,錯誤數據需要進一步調查。
  • 關聯規則學習(依賴建模)– 搜尋變數之間的關係。例如,一個超市可能會收集顧客購買習慣的數據。運用關聯規則學習,超市可以確定哪些產品經常一起買,並利用這些資訊幫助行銷。這有時被稱為市場購物籃分析。
  • 聚類 – 是在未知數據的結構下,發現數據的類別與結構。
  • 分類 – 是對新的數據推廣已知的結構的任務。例如,一個電子郵件程式可能試圖將一個電子郵件分類為「合法的」或「垃圾郵件」。
  • 回歸 – 試圖找到能夠以最小誤差對該數據建模的函數。
  • 匯總英語Automatic summarization – 提供了一個更緊湊的數據集表示,包括生成視覺化和報表。

結果驗證[編輯]

資料探勘的價值一般帶着一定的目的,而這目的是否得到實作一般可以通過結果驗證來實作。驗證是指「通過提供客觀證據對規定要求已得到滿足的認定」,而這個「認定」活動的策劃、實施和完成,與「規定要求」的內容緊密相關。資料探勘過程中的數據驗證的「規定要求」的設定,往往與資料探勘要達到的基本目標、過程目標和最終目標有關。驗證的結果可能是「規定要求」得到完全滿足,或者完全沒有得到滿足,以及其他介於兩者之間的滿足程度的狀況。驗證可以由資料探勘的人自己完成,也可以通過其他人參與或完全通過他人的專案,以與資料探勘者毫無關聯的方式進行驗證。一般驗證過程中,資料探勘者是不可能不參與的,但對於認定過程中的客觀證據的收集、認定的評估等過程如果通過與驗證提出者無關的人來實作,往往更具有客觀性。通過結果驗證,資料探勘者可以得到對自己所挖掘的數據價值高低的評估。

私隱問題及倫理[編輯]

與數據挖掘有關的,還牽扯到私隱問題,例如:一個僱主可以透過存取醫療記錄來篩選出那些有糖尿病或者嚴重心臟病的人,從而意圖削減保險支出。然而,這種做法會導致倫理和法律問題。

對於政府和商業數據的挖掘,可能會涉及到的,是國家安全或者商業機密之類的問題。這對於保密也是個不小的挑戰。[11]

數據挖掘有很多合法的用途,例如可以在患者群的數據庫中查出某藥物和其副作用的關聯。這種關聯可能在1000人中也不會出現一例,但藥物學相關的項目就可以運用此方法減少對藥物有不良反應的病人數量,還有可能挽救生命;但這當中還是存在着數據庫可能被濫用的問題。

數據挖掘實現了用其他方法不可能實現的方法來發現資訊,但它必須受到規範,應當在適當的說明下使用。

如果數據是收集自特定的個人,那麼就會出現一些涉及保密、法律和倫理的問題。[12]

方法[編輯]

資料探勘的方法包括監督式學習非監督式學習半監督學習增強學習。監督式學習包括:分類、估計、預測。非監督式學習包括:聚類,關聯規則分析。

例子[編輯]

資料探勘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時數據挖掘系統就在此客戶和真絲襯衣之間建立關聯。銷售部門就會看到此資訊,直接發送真絲襯衣的當前行情,以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過數據挖掘系統就發現了以前未知的關於客戶的新資訊,並且擴大經營範圍。

資料挖泥[編輯]

通常作為與數據倉庫和分析相關的技術,數據挖掘處於它們的中間。然而,有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關係),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯,在統計學文獻裏通常被戲稱為「資料挖泥」(Data dredging, data fishing, or data snooping)。

數據挖掘意味着掃瞄可能存在任何關係的數據,然後篩選出符合的模式,(這也叫作「過度符合模式」)。大量的數據集中總會有碰巧或特定的數據,有着「令人振奮的關係」。因此,一些結論看上去十分令人懷疑。儘管如此,一些探索性數據分析 還是需要應用統計分析尋找數據,所以好的統計方法和數據數據的界限並不是很清晰。

更危險是出現根本不存在的關聯性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的遊艇在哪裏?》的書中寫道:「總是有相當數量的可憐人,忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是,他們通常會找到。」[13]

多數的數據挖掘研究都關注於發現大量的數據集中,一個高度詳細的模式。在《大忙人的數據挖掘》一書中, 西弗吉尼亞大學不列顛哥倫比亞大學研究者討論了一個交替模式,用來發現一個數據集當中兩個元素的最小區別,它的目標是發現一個更簡單的模式來描述相關數據。[14]

參見[編輯]

方法
應用領域
應用例項
相關主題

資料探勘是關於分析數據的;有關從數據中提取資訊的資訊,參見:

參考文獻[編輯]

  1. ^ 1.0 1.1 1.2 1.3 Data Mining Curriculum. ACM SIGKDD英語SIGKDD. 2006-04-30 [2014-01-27]. 
  2. ^ Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09]. 
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. 
  4. ^ 4.0 4.1 4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008]. 
  5. ^ Han, Jiawei; Kamber, Micheline. Data mining: concepts and techniques. Morgan Kaufmann英語Morgan Kaufmann. 2001: 5. ISBN 978-1-55860-489-6. Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long 
  6. ^ See e.g. OKAIRP 2005 Fall Conference, Arizona State University About.com: Datamining
  7. ^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. 
  8. ^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons. 
  9. ^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602ISSN 0738-4602.
  10. ^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
  11. ^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
  12. ^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.
  13. ^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
  14. ^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162ISSN 0018-9162.

延伸閱讀[編輯]

外部連結[編輯]

開放式目錄計劃中和知識發現軟件相關的內容

開放式目錄計劃中和資料探勘工具供應商相關的內容