本页使用了标题或全文手工转换

深网

维基百科,自由的百科全书
跳转至: 导航搜索
Confusion grey.svg
提示:本条目的主题不是暗网

深网,即深層網路英语:Deep Web),又称:不可见网、隐藏网,是指全球資訊網上那些不能被标准搜索引擎索引的非表面网络内容。深网包括許多非常常見的用途,如網路郵件網路銀行等等。

數量[编辑]

2001年,電腦科學家迈克尔·伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到,也获取不了这些存在于深网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,深网就隐藏了起来。据估计,深网要比表網大几个数量级[1]

命名[编辑]

伯格曼在The Journal of Electronic Publishing上發表一篇關於深网的重大論文中提到,吉尔.艾尔斯沃夫曾经使用“隱形網”这一术语表示那些没有被任何搜索引擎索引注册的网站[1]。伯格曼還引用法兰克·加西亚在1996年1月的一篇文章[2]

这些网站可能已经被合理地设计出来了,但是他们却没有被任何搜索引擎编列索引,以至于事实上没有人能找到他们。我可以这样对这些不可见的网站说,你们是隐藏了的。我稱之為隱形網。

早期另一個使用“隱形網”这一术语的是一家叫做“个人图书馆软件”公司的布鲁斯·芒特马修·B·科尔,当他们公司在1996年12月推出和发行的一款软件时,他们对深网工具的有过这样的一番描述。[3]

現在普遍接受的深网這一特定術語首次使用在2001年伯格曼的研究中[1]

內容類型[编辑]

防止網頁被傳統搜索引擎索引的方法可以被分類為以下一個或多個:

  • Contextual Web
  • 动态内容
  • 被限制存取内容
  • 非HTML/文本内容
  • 私有网站
  • 脚本化内容
  • 未被链接内容

索引方法[编辑]

研究人员探寻了如何自动抓取深网内容。

2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亞·莫利納(Hector Garcia-Molina)[4][5]发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。[6]

商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap協議(由Google於2005年首次開發並由Google引入)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引。在这个系统里,使用三种方法计算提交词:

  1. 为输入搜索选择关键词允许的输入值,
  2. 确定是否只接受特定的值(例如时间),以及
  3. 选择少量的组合生成适合纳入网站的搜索索引网址。

参見[编辑]

参考资源[编辑]

  1. ^ 1.0 1.1 1.2 Bergman, Michael K. The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing. August 2001, 7 (1). . According to that paper, the study was originally published on July 26, 2000, with data then updated to 2001.
  2. ^ Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead 9 (1). (Citation from Flynn-Burhoe, Maureen (19 December 2006). "The Ultimate Guide to the Invisible Web". oceanflynn @ Digg.) (Electronic copy archived by the Internet Archive.)
  3. ^ Personal Library Software (Dec 1996). "PLS introduces AT1, the first 'second generation' Internet search service". (Archived by the Internet Archive.)
  4. ^ Sriram Raghavan; Hector Garcia-Molina. Crawling the Hidden Web (PDF). Stanford Digital Libraries Technical Report. 2000 [2008-12-27]. 
  5. ^ Raghavan, Sriram; Garcia-Molina, Hector. Crawling the Hidden Web (PDF). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB): 129–138. 2001. 
  6. ^ Alexandros, Ntoulas; Petros Zerfos, and Junghoo Cho. Downloading Hidden Web Content (PDF). UCLA Computer Science. 2005 [2009-02-24].