網路蜘蛛

维基百科,自由的百科全书
跳转至: 导航搜索

網路蜘蛛Web spider)也叫网络爬虫(Web crawler[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种「自動化瀏覽網路」的程式,或者说是一种网络机器人英语Internet bot。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

概述[编辑]

网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张"待访列表",即所谓"爬行疆域"(crawl frontier)。此疆域上的统一资源地址将被按照一套策略循环访问。

设计者所面临的挑战[编辑]

互联网资源卷帙浩繁,这意味着网络爬虫在一定时间内只能下载有限数量的网页,因此它需要优化它的下载方式。互联网资源瞬息万变,这也意味着网络爬虫下载的网页在使用前就已经被修改甚至是删除了。这是网络爬虫设计者们所面临的两个基本问题。

再者,服务器端软件所生成的统一资源地址数量庞大,以至于网络爬虫难以避免的采集到重复内容。根据超文本协议“显示请求”(HTTP GET)的参数的无尽组合所返回的页面中,只有很少一部分确实传回唯一的内容。例如:一个照片陈列室网站,可能通过几个参数,让用户选择相关照片:其一是通过四种方法对照片排序,其二是关于照片分辨率的的三种选择,其三是两种文件格式,另加一个用户可否提供内容的选择,这样对于同样的结果集可能会有48种不同的统一资源地址与其关联。这种数学组合给网络爬虫制造了麻烦,因为它们必须越过这些无关脚本变化的组合,寻找到不重复的内容。

参考文献[编辑]

  1. ^ Spetka, Scott. The TkWWW Robot: Beyond Browsing. NCSA. [21 November 2010]. (原始内容存档于3 September 2004).