Google搜索

维基百科,自由的百科全书
跳转至: 导航搜索
Google搜尋
Logo
Google web search.png
網址 google.com
商業性質?
網站類型 搜索引擎
註冊 選擇性
語言 多國語言 (~100)
持有者 Google公司
創始者 拉里·佩奇谢尔盖·布林
推出時間 1997年9月15日[1]
Alexa排名 1[2]
收入 來自廣告
現狀 發展中
Web search.jpg
本條目屬於网络搜索引擎系列
网络搜索引擎
元搜索引擎
國際性搜索引擎(多语言)
Google
Yahoo! Search
Bing
百度
仅中文搜索引擎
有道
搜狗
搜搜
阿里云搜索
蕃薯藤
PChome Online
360搜索
中国搜索
宜搜
神马搜索
其他搜索引擎
DuckDuckGo
AltaVista
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
其他连接

Google搜尋是由Google公司推出的一个互聯網搜索引擎,它是互聯網上最大、影响最广泛的搜索引擎的首位。Google每日透過不同的服務,處理来自世界各地超過2億次的查詢。

除了搜尋網頁外,Google亦提供搜尋圖像、新聞組、新聞網頁、影片的服務。2005年6月,Google已儲存超過80億的網頁,1億3千萬張圖片,以及超過1億的新聞組訊息 - 總計大概10億4千萬個項目。它也缓存了编入索引中的绝大多数网页的内容。

因为Google的名声,“Google”一个事物做动词表示的是“在Google上搜索”。它還有引申义“在互联网上搜索”,甚至“(在实际环境中)搜索”的意思。Google官方通过律师信强烈反对这种滥用他们公司名字的习惯,因为它可能會導致Google變成一個通用商標名。[3]

搜索引擎[编辑]

物理構造[编辑]

Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜索要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構)建造。索引是由程序Googlebot執行,它會定期地請求訪問已知的索引建立新頁面。頁面更新愈快,Googlebot訪問亦會愈多。再通過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁緩存大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google 檔案系統,儲存這些資料。

Google使用的这些机器的精确大小和位于何处至今未知;Google官方刻意含糊其词。在John Hennessy和David A. Patterson所著的《计算机結構:走进大数》中,推测Google的服务器场群集计算机群形成的“搜寻场”在2000年大约应该有6000个處理器,12000个普通IDE硬盘(即每个机器2个硬盘1个处理器),他们位于四个地方:二个在矽谷和二个在维吉尼亚。每个都以OC 48的线路(2488 Mbit/s,参见带宽)连接着因特网并且有一个OC 12(622 Mbit/s)线路连接着其他3个Google分站点。这些连接使用思科12000路由器(Gateway),用二个Foundry Networks BigIron 8000的以太网交换器分流成4 x 1 Gbit/s的线路连接到64个服务器夹,里面前后各是40台电脑和1台惠普以太网交换机,所以一个架子共有80个机器和2个惠普交换机。

Google在2004年4月发布的IPO S-1表单后,大财政公司的英特网开发单位副总裁Tristan Louis估计了现在的服务器场包含下列各项 [1]

  • 719个服务器架
  • 63,272台机器
  • 126,544个處理器
  • 253,088 GHz的處理能力
  • 126,544 GB内存
  • 5,062 TB的硬盘空间

依照这一估计,Google服务器场组成了全球最强大的超级计算机,每秒运行速度至少三倍于地球模拟器

PageRank[编辑]

Google使用一種名為PageRank的演算法,配合搜尋字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權係數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的链接,與及與人關聯的重要性。先前的排名搜尋方法,採用了許多搜尋器,以搜尋的關鍵詞和何時搜尋來排名頁面,或有多相關地關聯該搜尋。另外,Google亦採用其他秘密準則,決定排名網頁的結果。

Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDFWord文件、Excel試算表,以及純文字檔案。除了文本文件,其他文件的是先转换为HTML版本后缓存的。所以借助Google可以不需要有这些文件的相应程序就可以看见这些非网页文件,如Word或是Excel。

Google创新的搜索技术和典雅的用户界面设计使Google从第一代搜索引擎中脱颖而出。Google并非只使用关键词代理搜索技术,它将自身建立在高级 PageRank™(网页级别)技术基础之上。这项专利技术可确保始终将最重要的搜索结果首先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google还对投票的网页进行分析。Google复杂的自动搜索方法和结构设计被认为可以避免任何人为感情因素提供公正的搜索结果。随着搜索引擎优化(SEO)和各种针对PageRank的交换链接的行为的流行,Google的PageRank及公正性也越来越受到人们的质疑。

使用者能自定义搜寻引擎。他们能设定一个缺省语言或使用 "SafeSearch" 过滤技术,设定在每页上被显示的结果多少。Google受争议的放置永久cookie在用户的机器上以储存这些信息,这使他们能够了解过去用户的搜索内容。任何一次搜索请求(只有头10个关键字被查询),每次最多查询头1000个结果(以每一页最多100个结果的方式显示)。

尽管它有极大的索引数目,仍然有相当多数量的数据库的数据只能是从网站访问到,而不是藉由连接。这所谓的深网暂时不能被Google数据库所覆盖,举例来说包含了图书馆目录,官方的法定(政府)公文,电话簿等。

(关于 PageRank™ 的介绍,参见 Google的 Why Use Google 页

Google跳舞[编辑]

Google跳舞是一种经常被讨论的现象,Google跳舞指的是Google月底大量更新数据库和算法的几天时间,因为可以发现,这几天对Google搜索关键字如www.yahoo.com得到的结果数是不一样的。在跳舞期间,一个站点的等级可能在短时间里戏剧般的改变,而且不同的Google服务器(举例来说:www.google.com,www2.google.com,www3.google.com,www.google.co.uk,www.google.com.tw等)可能为相同的关键字提供不同的结果。跳舞似乎当是googlebot机器人抓取网页期间随即发生的。快速更新的网站,高级别的网页和新闻网站是最经常被检查的,虽然新闻不一定如此。小的调节在每月里持续进行以确定网页级别。在一些情况下,可能需要二到三个月让新建页面出现在搜索结果里。从2003年的夏季开始,每月的搜索,索引和等级更新被不间断的持续更新所取代。这种改变大大减少了Google搜索结果的不稳定性。2003年11月15日,Google似乎进行了有史以来最重要的一次算法升级,后来被称为“佛罗里达更新”。在这次更新中,几乎所有商业领域的关键词都受到了影响,尤其是一些热门的关键词,Google搜索的结果页完全变了个样儿,很多头一天还排在首位的网站被远远甩到了500名之后。

Google目前的主要挑战之一是,它的算法和结果越是得到网路使用者的信赖,商业网站为了利益而暗中破坏结果的风险就越戏剧般的增加。一些搜索引擎优化公司已经开始尝试使用各种不同的技巧提升Google网页评级,以使他们客户的网站更多的被搜索到。Google已经设法减少了一些已知的使用这种方法的网站的Google页面评级。

由于Google实际上已经成为国际上最流行的搜索引擎,很多网站管理员十分热衷于跟踪他们网站在Google上的左侧排名,并试图解释他们排名变化的原因。现在已有不少网站提供排名Google搜索引擎优化(Search Engine Optimization,SEO)服務,如在一些高流量的讨论区内加入商业网站的链接,从而使该网站在Google的排名提高。这种措施的确有一定成效,但这种收取客户金钱,在第三者的讨论区上展示广告,对讨论区的读者造成困扰,也侵害了讨论区的商业利益。

还有一种被普遍采用的技术是很多网站使用一个相同的关键字连接到某一个特定的网站,以使用户在Google搜索这个关键字的时候,这个网站的排名会出现在结果的较前面。这种方法被称为Google炸弹。现在Google算法更新的频率非常快,据猜测,现在算法公式中涉及的变量有300多个,PageRank™在整个Google算法中的影响力已经下降到20%左右,最终平衡的算法中最重要的变量所占的比例不会超过10%,单纯靠技术手段提升排名的网站已经禁不住时间的考验。

Google发布了一系列的 文章 以指导站长们提升他们网站的页面评级。

SearchWiki[编辑]

SearchWiki是Google搜索引擎Web 2.0化的一個體現,讓登錄的用戶得以參與搜索結果的評等。在每個搜索結果中新增了「調升」、「移除」與「評論」的按鈕:「調升」允許用戶將某搜索結果提升到前方;「移除」則可以刪除某搜索結果;「評論」則可以針對某搜索結果留下意見。為防止惡作劇與破壞損害了搜索結果可信度,以上的變動都會記錄下登錄用戶名,而且其他登錄用戶也能看到誰做了什麼改變。

典型的Web 2.0概念網站維基百科創始人吉米·威爾士亦曾提出透過讓用戶參與評等以集用戶群力加強搜索結果有效度的想法,其具體實現即為Wikia Searchhttp://search.wikia.com ,曾暫稱「Wikiasari」)。

搜索产品[编辑]

除了搜尋網頁工具,Google還提供搜尋圖像、網上論壇、新聞、影片、當地搜尋、地图、桌面搜尋等服務。2006年,Google已經索引了250億個網頁與及13億張圖像。

Google還有並非直接與搜尋相關的產品。例如Gmail是一個電子郵件服務,但仍包括搜索功能;Google Browser Sync不提供任何搜索工具,旨在組織使用者的瀏覽時間。

Google 即搜即得[编辑]

Google 即搜即得会在用户输入文字时,联想词以灰色形式在其后补充出来,同时立即展现搜索结果。

Google即搜即得(Instant Search)是Google于2010年9月8日发布的一个新的搜索技术[4],是一项搜索增强功能,能够使用户在输入内容的同时显示搜索结果,而不需要点击搜索按钮或者按下回车键。这样一来,用户在输入内容的同时就可浏览到相关的搜索结果页,大大节约了搜索消耗的时间[5]

Google 即搜即得可以在用户即使不知道要寻找什么,其联想查询也对搜索操作有引导帮助,最热门的联想查询词语会以灰色的文字形式直接地显示在搜索框里,这样当用户一看到所需的搜索结果时,就可以停止输入了。[6]而用户也可以选择停用这一功能。[7]

对移动设备的支持[编辑]

对于大多区域、语言,Google 即搜即得可以在应用 Android 2.2+ 或者 iOS 4+ 系统的移动设备上作为测试版功能来使用。[8]

搜索结果即时预览[编辑]

Google在搜索结果中提供即时预览功能,可在点击搜索结果前预览对应的网页。用户在搜索结果右侧的灰色箭头鼠标悬停,右侧空白处便会以图片的形式给出相应的网页即时预览。在部分预览中,预览图片上的相关程度较高的部分文本会突显于显示网页上,从而帮助用户更好地了解查询字词在网页中将要出现的位置。[9]

预览中还包含两个链接,一个是缓存网页,另一个是类似结果。[10]

不过,有些搜索结果可能不会提供预览。[11]

故障[编辑]

File:Googlebug.jpg
Google搜尋錯誤頁面

2009年1月31日晚間10時46分(UTC+8)左右,Google搜索引擎的中英文等搜索的结果全部加上了“该网站可能含有恶意软件,有可能会危害您的电脑”。其间,Google的网站管理员中心无法访问,显示“Server Error(服务器故障)”。並且有短暫的修復,之後問題仍然存在。此现象約至11時18分(UTC+8)结束,前后至少30分钟。后Google在官方博客中证实,這是個人為失誤,由于恶意网址库中不慎包含了地址“/”,导致所有包含「/」的網址皆被認為包含可能傷害電腦的軟體。[12] 在这个故障后,Google News也出现了一些微小的问题。

黑客襲擊[编辑]

2013年8月26日,几名巴勒斯坦的黑客劫持了「Google巴勒斯坦」的域名然后使其重定向至他們的網站,并在其網頁上寫了抗议文字。[13][14]

Google搜索在中国[编辑]

Google.com曾經多次被中國官方以不明理由封鎖。2009年6月18日,中央电视台焦点访谈》节目宣称谷歌的搜索词语联想的功能传播所谓色情低俗信息。在输入普通的词语比如“母亲”就会直接联想到黄色词语(但事实上在百度等中国大陆搜索引擎同样存在这种情况)。实情据谷歌Trends功能证据显示在6月10日里来自北京的IP恶意刷入近百次黄色词语,使黄色词汇搜索量猛增。在17日后,此关键词慢慢回复至0,一时间谷歌备受中共喉舌媒体指责。2009年6月24日21時左右,北京的互聯網用户無法訪問Google.com和Gmail,但使用代理服务器等手段(俗称翻墙)可以正常访问。这证明此次Google.com无法在大陆访问并非Google技术原因而是被大陆官方恶意封锁。约两小时后,Google服务恢复访问[15]

2010年1月14日,Google旗下的Gmail遭到可能来自中国的駭客入侵,並企圖下載中國人权活動人士的電郵。Google後来宣布,Google.cn的搜索服务将关闭,转由香港域名面向中国大陆用户提供简体中文服务。

国际化[编辑]

Google可以搜索很多的语言,并且提供了多种语言的界面[16]

为了达到幽默效果,Google还提供了以下几种语言的界面:

参见[编辑]

参考文献[编辑]

外部链接[编辑]

Wiktionary-logo-zh.png
维基词典上的词义解释: