本页使用了标题或全文手工转换

互联网档案馆

维基百科,自由的百科全书
跳转至: 导航搜索
Confusion grey.svg
提示:本条目的主题不是archive.isarXiv
互联网档案馆
Internet Archive
Internet Archive logo
Screenshot from Internet Archive.png
網際網路檔案館的主頁截圖
公司类型 501(c)条款非盈利组织
网站类型 數位圖書館
语言 英語
成立 1996年 (1996)
服务 互聯網檔案館,開放式圖書館,時光機(Wayback Machine)(2001年起),Netlabels,NASA Images,Prelinger Archives
员工 200
标语 Universal access to all knowledge
网站 archive.org
Alexa排名 260(2016年10月[1]
推出时间 2001

互联网档案馆英语:Internet Archive)是一個非營利性的數位圖書館。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供數字資料如網站、音樂、動態圖像、和數百萬書籍的永久性免費儲存及獲取。迄至2012年10月,其信息儲量達到10PB[2][3]。除此之外,該檔案館也是網絡開放與自由化的倡議者之一。

其數據是由自帶的網絡爬蟲自動搜集的,其網站典藏英语Web archiving檔案館網站時光機英语Wayback Machine,抓取了超過1500億的網頁[4][5]

其年度預算約为1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會[6]。總部位於舊金山里奇蒙德區,此地僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有數據中心。

該數據庫是國際網際網路保留協會成員[7],2007年被加利福尼亞州選為官方指定圖書館[8]。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400经典游戏[9]

歷史[编辑]

1996年,卡利在創建盈利性的Alexa Internet時同時也創立了互联网檔案館;同年10月開始收集儲存數據[10][11]。不過,直到2001年開發了「時光機」前,這些數據都無法存取。1999年末擴展收集範圍[12]

2012年8月,宣傳[13]將在其現存的130萬檔案的下載選項中加入BitTorrent[14][15]。因為通過兩個檔案數據中心協調,這成為從該檔案館下載數據的最快方法[14][16]

2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多設備和一些附近的公寓[17][18],預計損失達到60萬美元[19]


1996年至2009年时档案馆的总部,位于美国旧金山 
2009年以来的总部,原旧金山基督教科学派第四教会 
互联网档案馆在亚历山大图书馆的宣传标板 
总部内的大厅 

网页存档[编辑]

时光机[编辑]

时光机(Wayback Machine)是互联网档案馆最重要的服务之一。其名取自一部名为The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show的美国卡通片,时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。

年份 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
存档页面的数量

(亿)

400[20] 850[21] 850[22] 850[23] 1500[24] 1500[25] 1500[26] 1500[27] 3730[28] 4000[29]

Archive-It[编辑]

创始人布魯斯特·卡利正在谈论Archive-It

Archive-it是一款帮助机构和个人建立存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的Robots.txt访问,该网页将会成为时光机的一部分。[30]截至2014年3月 (2014-03),Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。

收集书目[编辑]

互联网档案馆的“抄写员”图书扫描工作站

互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个圖書掃描中心,其活动受图书馆和基金会的财政支持。[31][32]截至2013年7月 (2013-07),档案馆共收集了440万本书,每月的下载量超过1500万。[31]截至2008年11月 (2008-11),档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。[33]

各语言的文本数[编辑]

1 语言 英语 法语 德语 西班牙语 汉语 阿拉伯语
文本数(2015年11月27日) 6,553,945[34] 358,721[35] 344,810[36] 134,170[37] 84,147[38] 66,786[39]
2 语言 荷蘭語 葡萄牙語 俄语 乌尔都语 日语 合计(2016年10月30日)
文本数(2015年11月27日) 30,237[40] 25,938[41] 22,731[42] 14,978[43] 14,795[44] 10,612,003[45]

各个年代的文本数[编辑]

1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代
文本数

(2015年11月27日)

39,842[46] 51,151[47] 79,476[48] 105,021[49] 127,649[50] 180,950[51]
2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代
文本数

(2015年11月27日)

210,574[52] 214,505[53] 285,984[54] 370,726[55] 504,000[56] 455,539[57]
3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代
文本数

(2015年11月27日)

185,876[58] 70,190[59] 85,062[60] 81,192[61] 125,977[62] 206,870[63]
4 年代 1980年代 1990年代 2000年代 2010年代
文本数

(2015年11月27日)

181,129[64] 272,848[65] 579,905[66] 855,253[67]

影像资料[编辑]

读卡器
互联网档案馆的缩微胶片
互联网档案馆的录影带

除了上述内容之外,互联网档案库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都會藝術博物館提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个[68]。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。

镜像網站[编辑]

當機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料[69]

参考文献[编辑]

  1. ^ archive.org Site Info. Alexa Internet. [2016年10月18日]. (原始内容存档于2016年6月18日). 
  2. ^ 10,000,000,000,000,000 bytes archived!. Collections Team blog. Internet Archive. 2012-10-26 [2012-10-27]. On Thursday, 25 October, hundreds of Internet Archive supporters, volunteers, and staff celebrated addition of the 10,000,000,000,000,000th byte to the Archive's massive collections. 
  3. ^ Brown, A. (2006) Archiving websites: A practical guide for information management professionals. London: Facet Publishing. pp. 9.
  4. ^ Internet Archive: Projects. Internet Archive. [2013-03-06]. 
  5. ^ Grotke, A. (2011). Web Archiving at the Library of Congress. Computers In Libraries, 31 no. 10 (December 2011), p. 15-19.
  6. ^ Womack, David. Who Owns History?. Cabinet Magazine. No. 10. Spring 2003 [2013-04-13]. 
  7. ^ "Members" International Internet Preservation Consortium. Netpreserve.org
  8. ^ "Internet Archive officially a library", May 2, 2007. Archive.org
  9. ^ Internet Archive 放大招,2400 款 MS-DOS 游戏任你玩. ifanr爱范儿. 2015-01-07 [2017-01-29]. 
  10. ^ 互联网真能帮人类历史存档吗?. 腾讯科技. 2015-01-24 [2016-10-30]. 
  11. ^ Internet Archive: In the Collections. Wayback Machine. 2000-06-06 [2016-03-15]. (原始内容存档于2000-06-06). 
  12. ^ "Daisy Books for the Print Disabled", February 25, 2013. Internet Archive.
  13. ^ Kahle, Brewster (August 7, 2012). "Over 1,000,000 Torrents of Downloadable Books, Music, and Movies". Internet Archive Blogs.
  14. ^ 14.0 14.1 Van der Sar, Ernesto. Internet Archive Starts Seeding 1,398,875 Torrents. TorrentFreak英语TorrentFreak. 2012-08-07. 
  15. ^ "Hot List for bt1.us.archive.org (Updated August 7 2012, 7:31 pm PDT)". US Cluster. Internet Archive.
  16. ^ "Welcome to Archive torrents". Internet Archive.
  17. ^ Alexander, Kurtis. Internet Archive's S.F. office damaged in fire. San Francisco Chronicle. 2013-11-06. 
  18. ^ Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. Internet Archive Blogs. 2013-11-06. 
  19. ^ Shu, Catherine. Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch. 2013-11-06. 
  20. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2005-12-31). 
  21. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2006-12-28). 
  22. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2007-12-28). 
  23. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2008-12-24). 
  24. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2009-12-20). 
  25. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2010-12-30). 
  26. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2011-08-30). 
  27. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2012-12-31). 
  28. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2013-12-31). 
  29. ^ Wayback Machine Hits 400,000,000,000!. Internet Archive. [2014-09-01]. 
  30. ^ Rossi, Alexis. Fixing Broken Links on the Internet. Internet Archive. 2013-10-25 [2013-12-29]. 
  31. ^ 31.0 31.1 Hoffelder, Nate (July 9, 2013). "Internet Archive Now Hosts 4.4 Million eBooks, Sees 15 Million eBooks Downloaded Each Month". The Digital Reader.
  32. ^ Kahle, Brewster (May 23, 2008). "Books Scanning to be Publicly Funded". Internet Archive Forums.
  33. ^ "Bulk Access to OCR for 1 Million Books". Open Library Blog. November 24, 2008.
  34. ^ Internet Archive Search : (language:eng OR language:"English"). Internet Archive. [2015-11-27]. 
  35. ^ Internet Archive Search : (language:fre OR language:"French"). Internet Archive. [2015-11-27]. 
  36. ^ Internet Archive Search : (language:ger OR language:"German"). Internet Archive. [2015-11-27]. 
  37. ^ Internet Archive Search : (language:spa OR language:"Spanish"). Internet Archive. [2015-11-27]. 
  38. ^ Internet Archive Search : (language:Chinese OR language:"chi") AND mediatype:texts. Internet Archive. [2015-11-27]. 
  39. ^ Internet Archive Search : (language:ara OR language:"Arabic"). Internet Archive. [2015-11-27]. 
  40. ^ Internet Archive Search : (language:Dutch OR language:"dut") AND mediatype:texts. Internet Archive. [2015-11-27]. 
  41. ^ Internet Archive Search : (language:Portuguese OR language:"por") AND mediatype:texts. Internet Archive. [2015-11-27]. 
  42. ^ Internet Archive Search : (language:rus OR language:"Russian") AND mediatype:texts. Internet Archive. [2015-11-27]. 
  43. ^ Internet Archive Search : (language:urd OR language:"Urdu") AND mediatype:texts. Internet Archive. [2015-11-27]. 
  44. ^ Internet Archive Search : (language:Japanese OR language:"jpn") AND mediatype:texts. Internet Archive. [2015-11-27]. 
  45. ^ Internet Archive Search : mediatype:texts. Internet Archive. [2015-11-27]. 
  46. ^ Internet Archive Search : mediatype:texts AND date:[1800-01-01 TO 1809-12-31]. Internet Archive. [2015-11-27]. 
  47. ^ Internet Archive Search : mediatype:texts AND date:[1810-01-01 TO 1819-12-31]. Internet Archive. [2015-11-27]. 
  48. ^ Internet Archive Search : mediatype:texts AND date:[1820-01-01 TO 1829-12-31]. Internet Archive. [2015-11-27]. 
  49. ^ Internet Archive Search : mediatype:texts AND date:[1830-01-01 TO 1839-12-31]. Internet Archive. [2015-11-27]. 
  50. ^ Internet Archive Search : mediatype:texts AND date:[1840-01-01 TO 1849-12-31]. Internet Archive. [2015-11-27]. 
  51. ^ Internet Archive Search : mediatype:texts AND date:[1850-01-01 TO 1859-12-31]. Internet Archive. [2015-11-27]. 
  52. ^ Internet Archive Search : mediatype:texts AND date:[1860-01-01 TO 1869-12-31]. Internet Archive. [2015-11-27]. 
  53. ^ Internet Archive Search : mediatype:texts AND date:[1870-01-01 TO 1879-12-31]. Internet Archive. [2015-11-27]. 
  54. ^ Internet Archive Search : mediatype:texts AND date:[1880-01-01 TO 1889-12-31]. Internet Archive. [2015-11-27]. 
  55. ^ Internet Archive Search : mediatype:texts AND date:[1890-01-01 TO 1899-12-31]. Internet Archive. [2015-11-27]. 
  56. ^ Internet Archive Search : mediatype:texts AND date:[1900-01-01 TO 1909-12-31]. Internet Archive. [2015-11-27]. 
  57. ^ Internet Archive Search : mediatype:texts AND date:[1910-01-01 TO 1919-12-31]. Internet Archive. [2015-11-27]. 
  58. ^ Internet Archive Search : mediatype:texts AND date:[1920-01-01 TO 1929-12-31]. Internet Archive. [2015-11-27]. 
  59. ^ Internet Archive Search : mediatype:texts AND date:[1930-01-01 TO 1939-12-31]. Internet Archive. [2015-11-27]. 
  60. ^ Internet Archive Search : mediatype:texts AND date:[1940-01-01 TO 1949-12-31]. Internet Archive. [2015-11-27]. 
  61. ^ Internet Archive Search : mediatype:texts AND date:[1950-01-01 TO 1959-12-31]. Internet Archive. [2015-11-27]. 
  62. ^ Internet Archive Search : mediatype:texts AND date:[1960-01-01 TO 1969-12-31]. Internet Archive. [2015-11-27]. 
  63. ^ Internet Archive Search : mediatype:texts AND date:[1970-01-01 TO 1979-12-31]. Internet Archive. [2015-11-27]. 
  64. ^ Internet Archive Search : mediatype:texts AND date:[1980-01-01 TO 1989-12-31]. Internet Archive. [2015-11-27]. 
  65. ^ Internet Archive Search : mediatype:texts AND date:[1990-01-01 TO 1999-12-31]. Internet Archive. [2015-11-27]. 
  66. ^ Internet Archive Search : mediatype:texts AND date:[2000-01-01 TO 2009-12-31]. Internet Archive. [2015-11-27]. 
  67. ^ Internet Archive Search : mediatype:texts AND date:[2010-01-01 TO 2015-11-27]. Internet Archive. [2015-11-27]. 
  68. ^ Metropolitan Museum of Art - Gallery Images: Free Image : Download & Streaming : Internet Archive. Internet Archive. [2014-12-04]. 
  69. ^ International School of Information Science (ISIS). www.bibalex.org. International School of Information Science. [2016-10-30]. 

延伸阅读[编辑]

外部連結[编辑]

参见[编辑]