Google搜索

维基百科,自由的百科全书

跳转到: 导航, 搜索
Google
Image:Google Homepage.png
The Google homepage in Safari web browser
網址 www.google.com
list of domain names
营利性質 yes
Ownership {{{ownership}}}
網站類型 搜索引擎
需註冊 {{{reg}}}
持有者 Google公司
創始者 拉里·佩奇谢尔盖·布林


Google是由Google公司推出的一个互聯網搜索引擎,它是互聯網上最大、影响最广泛的搜索引擎的首位。Google每日透過不同的服務,處理来自世界各地超過2億次的查詢。

除了搜索網頁外,Google亦提供搜索圖像、新聞組、新聞網頁、影片的服務。2005年6月,Google已儲存超過80億的網頁,1億3千萬張圖片,以及超過1億的新聞組訊息 - 總計大概10億4千萬個項目。它也缓存了编入索引中的绝大多数网页的内容。

因为Google的名声,“Google”一个事物做动词表示的是“在Google上寻找某事”。它還有廣義的“搜索网路”的意思。Google官方并不鼓励这种滥用他们公司名字的习惯,因为它可能會導致Google變成一個通用商標名。

目录

[编辑] 搜索引擎

本條目屬於网络搜索引擎系列
网络搜索引擎
元搜索引擎
知名搜索引擎
Google 谷歌
Yahoo! 雅虎!
Live Search
中文搜索引擎
蕃薯藤
百度
新浪
PChome Online
其他搜索引擎
AltaVista
Exalead
Mooter
Alexa Internet
其他连接

[编辑] 物理構造

Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜索要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構) 建造。索引是由程序Googlebot執行,它會定期地請求訪問已知的索引建立新頁面。頁面更新愈快,Googlebot訪問亦會愈多。再通過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁緩存大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google 檔案系統 ,儲存這些資料。

Google使用的这些机器的精确大小和位于何处至今未知;Google官方刻意含糊其词。在John Hennessy和David A. Patterson所著的《计算机結構:走进大数》中,推测Google的服务器场群集计算机群形成的“搜寻场”在2000年大约应该有6000个處理器,12000个普通IDE硬盘(即每个机器2个硬盘1个处理器),他们位于四个地方:二个在 矽谷和二个在 维吉尼亚。每个都以OC 48的线路(2488 Mbit/s,参见带宽)连接着因特网并且有一个OC 12(622 Mbit/s)线路连接着其他3个Google分站点。这些连接使用思科12000路由器(Gateway),用二个Foundry Networks BigIron 8000的以太网交换器分流成4 x 1 Gbit/s的线路连接到64个服务器夹,里面前后各是40台电脑和1台惠普以太网交换机,所以一个架子共有80个机器和2个惠普交换机。

Google在2004年4月发布的IPO S-1表单后,大财政公司的英特网开发单位副总裁Tristan Louis估计了现在的服务器场包含下列各项[1]

  • 719个服务器架
  • 63,272台机器
  • 126,544个處理器
  • 253,088 GHz的處理能力
  • 126,544 GB内存
  • 5,062 TB的硬盘空间

依照这一估计,Google服务器场组成了全球最强大的超级计算机,每秒运行速度至少三倍于地球模拟器

[编辑] PageRank

主条目:PageRank

Google使用一種名為PageRank的演算法,配合搜索字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權繫數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的連結,與及與人關聯的重要性。先前的排名搜索方法,採用了許多搜索器,以搜索的關鍵詞和何時搜索來排名頁面,或有多相關地關聯該搜索。 另外,Google亦採用其他秘密準則,決定排名網頁的結果。

Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDFWord文件、Excel試算表,以及純文字檔案。除了文本文件,其他文件的是先转换为HTML版本后缓存的。 所以借助Google可以不需要有这些文件的相应程序就可以看见这些非网页文件,如Word或是Excel。

Google创新的搜索技术和典雅的用户界面设计使Google从第一代搜索引擎中脱颖而出。Google并非只使用关键词代理搜索技术,它将自身建立在高级 PageRank™ (网页级别)技术基础之上。这项专利技术可确保始终将最重要的搜索结果首先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google还对投票的网页进行分析。Google复杂的自动搜索方法和结构设计被认为可以避免任何人为感情因素提供公正的搜索结果。随着搜索引擎优化(SEO)和各种针对PageRank的交换链接的行为的流行,Google的PageRank?及公正性也越来越受到人们的质疑。

使用者能自定义搜寻引擎。他们能设定一个缺省语言或使用 "SafeSearch" 过滤技术,设定在每页上被显示的结果多少。Google受争议的放置永久cookie在用户的机器上以储存这些信息,这使他们能够了解过去用户的搜索内容。任何一次搜索请求(只有头10个关键字被查询),每次最多查询头1000个结果(以每一页最多100个结果的方式显示)。

尽管它有极大的索引数目,仍然有相当多数量的数据库的数据只能是从网站访问到,而不是藉由连接。这所谓的深网暂时不能被Google数据库所覆盖,举例来说包含了图书馆目录,官方的法定(政府)公文,电话簿等。

(关于 PageRank™ 的介绍,参见Google的 Why Use Google 页

[编辑] Google跳舞

Google跳舞是一种经常被讨论的现象,Google跳舞指的是Google月底大量更新数据库和算法的几天时间,因为可以发现,这几天对Google搜索关键字如www.yahoo.com得到的结果数是不一样的.

在跳舞期间,一个站点的等级可能在短时间里戏剧般的改变,而且不同的Google服务器(举例来说,www.google.com,www2.google.com,www3.google.com,www.google.co.uk,www.google.com.tw等)可能为相同的关键字提供不同的结果。跳舞似乎当是googlebot机器人抓取网页期间随即发生的。快速更新的网站,高级别的网页和新闻网站是最经常被检查的,虽然新闻不一定如此。小的调节在每月里持续进行以确定网页级别。在一些情况下,可能需要二到三个月让新建页面出现在搜索结果里。 从2003年的夏季开始,每月的搜索,索引和等级更新被不间断的持续更新所取代。这种改变大大减少了Google搜索结果的不稳定性。2003年11月15日,Google似乎进行了有史以来最重要的一次算法升级,后来被称为“佛罗里达更新”。在这次更新中,几乎所有商业领域的关键词都受到了影响,尤其是一些热门的关键词,Google搜索的结果页完全变了个样儿,很多头一天还排在首位的网站被远远甩到了500名之后。

Google目前的主要挑战之一是,它的算法和结果越是得到网路使用者的信赖,商业网站为了利益而暗中破坏结果的风险就越戏剧般的增加。一些搜索引擎优化公司已经开始尝试使用各种不同的技巧提升Google网页评级,以使他们客户的网站更多的被搜索到。Google已经设法减少了一些已知的使用这种方法的网站的Google页面评级。

由于Google实际上已经成为最流行的搜索引擎之一,很多网站管理员十分热衷于跟踪他们网站在Google上的左侧排名,并试图解释他们排名变化的原因。现在已有不少网站提供排名Google搜索引擎优化(Search Engine Optimization,SEO)服務,如在一些高流量的讨论区内刻意加入商业网站的链接,从而使该网站在Google的排名提高。这种“发明”虽然的确有一定成效,但这种收取客户金钱,在第三者的讨论区上大卖广告,一方面对讨论区的读者造成困扰,也侵害了讨论区的商业利益;这种做法也明显违反了商业道德。

还有一种被普遍采用的技术是很多网站使用一个相同的关键字连接到某一个特定的网站,以使用户在Google搜索这个关键字的时候,这个网站的排名会出现在结果的较前面。这种方法被称为Google炸弹。现在Google算法更新的频率非常快,据猜测,现在算法公式中涉及的变量有300多个,PageRank™在整个Google算法中的影响力已经下降到20%左右,最终平衡的算法中最重要的变量所占的比例不会超过10%,单纯靠技术手段提升排名的网站已经禁不住时间的考验。

Google发布了一系列的文章以指导站长们提升他们网站的页面评级。

[编辑] 搜索产品

主条目:Google产品列表

In addition to its tool for searching webpages, Google also provides services for searching images, Usenet newsgroups, news websites, videos, searching by locality, maps, and items for sale online. In 2006, Google has indexed over 25 billion web pages, 1.3 billion images, and over one billion Usenet messages.[citation needed] It also caches much of the content that it indexes. Google operates other tools and services including Google News, Google Suggest, Google Product Search, Google Maps, Google Co-op and Google Desktop Search.

There are also products available from Google that are not directly search-related. Gmail, for example, is a webmail application, but still include search features; Google Browser Sync does not offer any search facilities, although it aims to organize your browsing time.

[编辑] 参考文献

[编辑] 外部链接

[编辑] 参见

维基词典上的词义解释:
个人工具