資料探勘

維基百科,自由的百科全書
跳到: 導覽搜尋
Exquisite-bz2.png

資料探勘Data mining),又譯為數據挖掘數據挖掘數據採礦。它是數據庫知識發現(英文:Knowledge-Discovery in Databases,縮寫KDD)中的一個步驟。資料探勘一般是指從大量的數據中自動搜尋隱藏於其中的有着特殊關聯性(屬於Association rule learning)的訊息的過程。數據挖掘通常與電腦科學有關,並通過統計線上分析處理情報檢索機器學習專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

定義[編輯]

數據挖掘有以下這些不同的定義:

  1. 「從數據中提取出隱含的過去未知的有價值的潛在訊息」[1]
  2. 「一門從大量數據或者數據庫中提取有用訊息的科學。」[2]

儘管通常數據挖掘應用於數據分析,但是像人工智能一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD的關聯是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD透過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。

方法[編輯]

資料探勘的方法包括監督式學習非監督式學習、關聯分組(Affinity Grouping,作關聯性的分析)與購物籃分析(Market Basket Analysis)、聚類(Clustering)與描述(Description)。監督式學習包括:分類、估計、預測。

例子[編輯]

資料探勘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時數據挖掘系統就在此客戶和真絲襯衣之間建立關聯。銷售部門就會看到此訊息,直接發送真絲襯衣的當前行情,以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過數據挖掘系統就發現了以前未知的關於客戶的新訊息,並且擴大經營範圍。

歷史[編輯]

數據挖掘是因為海量有用數據快速增長的產物。使用計數機進行歷史數據分析,1960年代數字方式採集數據已經實現。1980年代,關聯式資料庫隨着能夠適應動態按需分析數據的結構化查詢語言發展起來。資料倉儲開始用來存儲大量的數據。

因為面臨處理數據庫中大量數據的挑戰,於是數據挖掘應運而生,對於這些問題,它的主要方法是數據統計分析人工智能搜尋技術。

資料挖泥[編輯]

通常作為與數據倉庫和分析相關的技術,數據挖掘處於它們的中間。然而,有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關係),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯,在統計學文獻裡通常被戲稱為「資料挖泥」(Data dredging, data fishing, or data snooping)。

數據挖掘意味着掃瞄可能存在任何關係的數據,然後篩選出符合的模式,(這也叫作「過度匹配模式」)。大量的數據集中總會有碰巧或特定的數據,有着「令人振奮的關係」。因此,一些結論看上去十分令人懷疑。儘管如此,一些探索性數據分析 還是需要應用統計分析尋找數據,所以好的統計方法和數據數據的界限並不是很清晰。

更危險是出現根本不存在的關聯性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的遊艇在哪裡?》的書中寫道:「總是有相當數量的可憐人,忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是,他們通常會找到。」[3]

多數的數據挖掘研究都關注於發現大量的數據集中,一個高度詳細的模式。在《大忙人的數據挖掘》一書中, 西弗吉尼亞大學不列顛哥倫比亞大學研究者討論了一個交替模式,用來發現一個數據集當中兩個元素的最小區別,它的目標是發現一個更簡單的模式來描述相關數據。[4]

資料探勘的過程[編輯]

數據預處理一般包括數據清理、數據整合、數據變換和數據規約四個處理過程。

挖掘[編輯]

結果驗證[編輯]

資料探勘的價值一般帶着一定的目的,而這目的是否得到實作一般可以透過結果驗證來實作。驗證是指「透過提供客觀證據對規定要求已得到滿足的認定」,而這個「認定」活動的策劃、實施和完成,與「規定要求」的內容緊密相關。資料探勘過程中的數據驗證的「規定要求」的設定,往往與資料探勘要達到的基本標的、過程標的和最終標的有關。驗證的結果可能是「規定要求」得到完全滿足,或者完全沒有得到滿足,以及其他介於兩者之間的滿足程度的狀況。驗證可以由資料探勘的人自己完成,也可以透過其他人參與或完全透過他人的專案,以與資料探勘者毫無關聯的方式進行驗證。一般驗證過程中,資料探勘者是不可能不參與的,但對於認定過程中的客觀證據的收集、認定的評估等過程如果透過與驗證提出者無關的人來實作,往往更具有客觀性。透過結果驗證,資料探勘者可以得到對自己所挖掘的數據價值高低的評估。

私隱的關注[編輯]

與數據挖掘有關的,還牽扯到私隱問題,例如:一個僱主可以透過訪問醫療記錄來篩選出那些有糖尿病或者嚴重心臟病的人,從而意圖削減保險支出。然而,這種做法會導致倫理和法律問題。

對於政府和商業數據的挖掘,可能會涉及到的,是國家安全或者商業機密之類的問題。這對於保密也是個不小的挑戰。[5]

數據挖掘有很多合法的用途,例如可以在患者群的數據庫中查出某藥物和其副作用的關聯。這種關聯可能在1000人中也不會出現一例,但藥物學相關的項目就可以運用此方法減少對藥物有不良反應的病人數量,還有可能挽救生命;但這當中還是存在着數據庫可能被濫用的問題。

數據挖掘實現了用其他方法不可能實現的方法來發現訊息,但它必須受到規範,應當在適當的說明下使用。

如果數據是收集自特定的個人,那麼就會出現一些涉及保密、法律和倫理的問題。[6]

演算法[編輯]

先驗演算法(英語:Apriori algorithm)是數據挖掘中最基本的演算法。

組合博奕數據挖掘[編輯]

商業解決方案[編輯]

(按照字母順序排列)

參考文獻[編輯]

  1. ^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602ISSN 0738-4602.
  2. ^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
  3. ^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
  4. ^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162ISSN 0018-9162.
  5. ^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
  6. ^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.

參考書[編輯]

  • 《數據挖掘:概念與技術》,Jiawei Han、Micheline Kamber等著,機械工業出版社,2001年。 ISBN 1-55860-489-8
最負盛名的數據挖掘著作,但版本較老,對讀者的計數機尤其是數據庫背景要求較高。
  • 《數據挖掘導論》, Pang-Ning Tan, Michael Steinbach等著,范明、范宏建等譯,人民郵電出版社,2006年。 ISBN 7-115-14698-5圖靈教育
最新出版的數據挖掘著作,其寫作目的是「盡可能直接地學習數據挖掘,以便儘快地將其應用到各自的領域」。覆蓋了多學科應用實例,對讀者數學和計數機背景要求較低。
  • Yuchun Lee et al. (1998), "Solving Data Mining Problems Through Pattern Recognition" , ISBN 0-13-095083-1
  • Oded Maimon and Mark Last (2000), "Knowledge Discovery and Data Mining - The Info-Fuzzy Network (IFN) Methodology", Kluwer Academic Publishers. ISBN 0-7923-6647-6
  • Sholom Weiss and Nitin Indurkhya(1998). "Predictive Data Mining". Morgan Kaufman. ISBN 1-55860-403-0
  • 《資料探勘(原書第2版)》,~ Jiawei Han (作者), Micheline Kamber (作者), 范明 (譯者), 孟小峰 (譯者) ,機械工業出版社,2007年3月1日.ISBN 9787111205388

外部連結[編輯]

參見[編輯]