數據清洗

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書
(重新導向自数据清理

數據清洗(data cleaning)是從記錄集、數據庫表數據庫中檢測和糾正(或刪除)損壞或不準確的記錄的過程,是指識別數據的不完整、不正確、不準確或不相關部分,然後替換、修改、或刪除髒數據或粗數據[1]。數據清洗可以與數據加工工具交互執行,也可以通過腳本進行批處理[2]

清洗後,一個數據集應該與系統中其他類似的數據集保持一致。 檢測到或刪除的不一致可能最初是由用戶輸入錯誤、傳輸或存儲中的損壞或不同存儲中類似實體的不同數據字典定義引起的。 數據清理與數據確認(data validation)的不同之處在於,數據確認幾乎總是意味着數據在輸入時被系統拒絕,並在輸入時執行,而不是執行於批量數據。

數據清洗不僅僅更正錯誤,同樣加強來自各個單獨信息系統不同數據間的一致性。專門的數據清洗軟件能夠自動檢測數據文件,更正錯誤數據,並用全企業一致的格式整合數據。[3]

參閱[編輯]

參考資料[編輯]

  1. ^ Wu, S., A review on coarse warranty data and analysis (PDF), Reliability Engineering and System, 2013, 114: 1–11 [2021-12-31], doi:10.1016/j.ress.2012.12.021, (原始內容存檔 (PDF)於2021-11-04) 
  2. ^ What is Data Cleaning?. Sisense. [2021-10-17]. (原始內容存檔於2022-01-24) (美國英語). 
  3. ^ Kenneth C. Laudon and Jane P. Laudon, 《Management Information Systems》, Pearson, 7 March 2011, Chapter 6 Information systems Organizations and Strategy p.157