大數據

维基百科,自由的百科全书
跳转至: 导航搜索
IBM對維基百科的編輯紀錄資料進行視覺化的呈現。維基百科上總計數兆位元組的文字和圖片正是大資料的例子之一

大数据英语Big data[1][2]),或稱巨量資料海量資料大资料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊[3][4]。在總資料量相同的情況下,與個別分析獨立的小型資料集(data set)相比,將各個小型資料集合併後進行分析可得出許多額外的資訊和資料關聯性,可用來察覺商業趨勢、判定研究品質、避免疾病擴散、打擊犯罪或測定即時交通路況等;這樣的用途正是大型資料集盛行的原因[5][6][7]

全球資訊儲存容量成長圖

截至2012年  (2012-Missing required parameter 1=month!),技術上可在合理時間內分析處理的資料集大小單位為艾位元組(exabytes)[8]。在許多領域,由於資料集過度龐大,科學家經常在分析處理上遭遇限制和阻礙;這些領域包括氣象學基因組學[9]神經網路體學英语connectomics、複雜的物理模擬[10],以及生物和環境研究[11]。這樣的限制也對網路搜尋金融經濟資訊學造成影響。資料集大小增長的部分原因來自於資訊持續從各種來源被廣泛收集,這些來源包括搭載感測設備的行動裝置、高空感測科技(遥感)、軟體記錄、相機、麥克風、無線射頻辨識(RFID)和無線感測網路。自1980年代起,現代科技可儲存資料的容量每40個月即增加一倍[12];截至2012年  (2012-Missing required parameter 1=month!),全世界每天產生2.5艾位元組(2.5×1018)的資料[13]

大數據幾乎無法使用大多數的資料庫管理系統處理,而必須使用「在數十、數百甚至數千台伺服器上同時平行運行的軟體」[14]。大數據的定義取決於持有資料組的機構之能力,以及其平常用來處理分析資料的軟體之能力。「對某些組織來說,第一次面對數百GB的資料集可能讓他們需要重新思考資料管理的選項。對於其他組織來說,資料集可能需要達到數十或數百兆位元組才會對他們造成困擾。」[15]

定義[编辑]

大數據由巨型數據集英语Data set組成,這些數據集大小常超出人類在可接受時間下的收集英语data acquisition庋用英语data curation、管理和處理能力[16]。大數據的大小經常改變,截至2012年  (2012-Missing required parameter 1=month!),單一資料集的大小從數兆位元組(TB)至數十兆億位元組(PB)不等。

在一份2001年的研究與相關的演講中[17]麦塔集团(META Group,現為高德纳)分析員道格·萊尼(Doug Laney)指出數據增長的挑戰和機遇有三個方向:量(Volume,數據大小)、速(Velocity,資料输入輸出的速度)與多變(Variety,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份大數據產業中的公司,都繼續使用3V來描述大數據[18]。高德納於2012年修改了對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理[原文 1][19]。」另外,有機構在3V之外定義了第4個V:真实性(Veracity)為第四特点[20]

大數據必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油。

資料探勘(data mining)則是在探討用以解析大數據的方法。

應用範例[编辑]

大資料的應用範例包括了大科学RFID、感測設備網路、天文學、大氣學、基因組學、生物學、大社會資料分析[21]、網際網路文件處理、製作網際網路搜尋引擎索引、通信記錄明細、軍事偵查、社群網路、通勤時間預測、醫療記錄、照片圖像和影像封存、大規模的電子商務等[22]

大科學[编辑]

大型強子對撞機中有1億5000萬個感測器,每秒傳送4000萬次的資料。實驗中每秒產生將近6億次的對撞,在過濾去除99.999%的撞擊資料後,得到約100次的有用撞擊資料[23][24][25]

將撞擊結果資料過濾處理後僅記錄了0.001%的有用資料,全部四個對撞機的資料量複製前每年產生25拍位元組(PB),複製後為200拍位元組。

如果將所有實驗中的資料在不過濾的情況下全部記錄,資料量將會變得過度龐大且極難處理。每年資料量在複製前將會達到1.5億拍位元組,等於每天有近500艾位元組(EB)的資料量。這個數字代表每天實驗將產生相當於500(5×1020)位元組的資料,是全世界所有資料來源總和的200倍。

衛生學[编辑]

國際衛生學教授漢斯·羅斯林使用「Trendalyzer」工具軟體呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對,例如收入、宗教、能源使用量等。

市場[编辑]

大資料的出現提升了對資訊管理專家的需求,Software AG甲骨文IBM微軟SAP易安信惠普戴爾已在多間資料管理分析專門公司上花費超過150億美元。在2010年,資料管理分析產業市值超過1,000億美元,並以每年將近10%的速度成長,是整個軟體產業成長速度的兩倍[5]

經濟的開發成長促進了密集資料科技的使用。全世界共有約46億的行動電話用戶,並有10至20億人連結網際網路[5]。自1990年起至2005年間,全世界有超過10億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動資訊量的成長。全世界透過電信網路交換資訊的容量在1986年為281兆億位元組(PB),1993年為471兆位元組,2000年時增長為2.2艾位元組(EB),在2007年則為65艾位元組[12]。根據預測,在2013年網際網路每年的資訊流量將會達到667艾位元組[5]

相關條目[编辑]

注释[编辑]

  1. ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

参考文献[编辑]

  1. ^ White, Tom. Hadoop: The Definitive Guide. O'Reilly Media. 2012-05-10. 3. ISBN 978-1-4493-3877-0. 
  2. ^ MIKE2.0, Big Data Definition. 
  3. ^ Kusnetzky, Dan. What is "Big Data?". ZDNet. 
  4. ^ Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 2010-04-22. 
  5. ^ 5.0 5.1 5.2 5.3 Data, data everywhere. The Economist. 2010-02-25 [2012-12-09]. 
  6. ^ E-Discovery Special Report: The Rising Tide of Nonlinear Review. Hudson Global. [1 July 2012].  by Cat Casey and Alejandra Perez
  7. ^ What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology — Re-Humanizing Technology-Assisted Review. Forbes. [1 July 2012]. 
  8. ^ Francis, Matthew. Future telescope array drives development of exabyte processing. 2012-04-02 [2012-10-24]. 
  9. ^ Community cleverness required. Nature. 4 September 2008, 455 (7209): 1. doi:10.1038/455001a. 
  10. ^ Sandia sees data management challenges spiral. HPC Projects. 2009-08-04. 
  11. ^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. Challenges and Opportunities of Open Data in Ecology. Science. 2011, 331 (6018): 703–5. doi:10.1126/science.1197962. 
  12. ^ 12.0 12.1 Hilbert & López 2011
  13. ^ IBM What is big data? — Bringing big data to the enterprise. www.ibm.com. [2013-08-26]. 
  14. ^ Jacobs, A. The Pathologies of Big Data. ACMQueue. 6 July 2009. 
  15. ^ Magoulas, Roger; Lorica, Ben. Introduction to Big Data. Release 2.0 (Sebastopol CA: O’Reilly Media). 2009-02, (11). 
  16. ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  17. ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. [2001-02-06]. 
  18. ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [2011-07-13](原始内容存档于2011-07-10). 
  19. ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012]. 
  20. ^ What is Big Data?. Villanova University. 
  21. ^ Erik Cambria; Dheeraj Rajagopal, Daniel Olsher, and Dipankar Das. Big social data analysis//Big Data Computing. Taylor & Francis. 2013. 
  22. ^ Hogan, M. What is Big Data. 3 March 2013 [2013-06-20]. 
  23. ^ LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public.. CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. [20 January 2013]. 
  24. ^ LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers.. CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. [20 January 2013]. 
  25. ^ Brumfiel, Geoff. High-energy physics: Down the petabyte highway. Nature 469. 19 January 2011: (282–83). doi:10.1038/469282a. 

延伸閱讀[编辑]

外部連結[编辑]

Wiktionary-logo-zh.png
维基词典上的词义解释: