Google搜索
Google首頁截圖 |
|
| 網址 | www.google.com |
|---|---|
| 商業性質? | 是 |
| 網站類型 | 搜索引擎 |
| 註冊 | 選擇性 |
| 語言 | 多國語言 (~100) |
| 持有者 | Google公司 |
| 創始者 | 拉里·佩奇和谢尔盖·布林 |
| 推出時間 | 1997年9月15日[1] |
| Alexa排名 | 1[2] |
| 收入 | 來自廣告 |
| 現狀 | 發展中 |
| 本條目屬於网络搜索引擎系列 |
| 网络搜索引擎 |
| 元搜索引擎 |
| 國際性搜索引擎 |
| Google搜尋 |
| Yahoo! Search |
| Bing搜尋 |
| 中文搜索引擎 |
| 百度 |
| 有道 |
| 搜狗 |
| 搜搜 |
| 新浪 |
| 蕃薯藤 |
| PChome Online |
| 其他搜索引擎 |
| AltaVista |
| Exalead |
| Mooter |
| Alexa Internet |
| AOL |
| Ask.com |
| 其他连接 |
Google搜尋是由Google公司推出的一个互聯網搜索引擎,它是互聯網上最大、影响最广泛的搜索引擎的首位。Google每日透過不同的服務,處理来自世界各地超過2億次的查詢。
除了搜尋網頁外,Google亦提供搜尋圖像、新聞組、新聞網頁、影片的服務。2005年6月,Google已儲存超過80億的網頁,1億3千萬張圖片,以及超過1億的新聞組訊息 - 總計大概10億4千萬個項目。它也缓存了编入索引中的绝大多数网页的内容。
因为Google的名声,“Google”一个事物做动词表示的是“在Google上搜索”。它還有引申义“在互联网上搜索”,甚至“(在实际环境中)搜索”的意思。[來源請求]
目录 |
[编辑] 搜索引擎
[编辑] 物理構造
Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜索要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構)建造。索引是由程序Googlebot執行,它會定期地請求訪問已知的索引建立新頁面。頁面更新愈快,Googlebot訪問亦會愈多。再通過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁緩存大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google 檔案系統,儲存這些資料。
Google使用的这些机器的精确大小和位于何处至今未知;Google官方刻意含糊其词。在John Hennessy和David A. Patterson所著的《计算机結構:走进大数》中,推测Google的服务器场中群集计算机群形成的“搜寻场”在2000年大约应该有6000个處理器,12000个普通IDE硬盘(即每个机器2个硬盘1个处理器),他们位于四个地方:二个在矽谷和二个在维吉尼亚。每个都以OC 48的线路(2488 Mbit/s,参见带宽)连接着因特网并且有一个OC 12(622 Mbit/s)线路连接着其他3个Google分站点。这些连接使用思科12000路由器(Gateway),用二个Foundry Networks BigIron 8000的以太网交换器分流成4 x 1 Gbit/s的线路连接到64个服务器夹,里面前后各是40台电脑和1台惠普以太网交换机,所以一个架子共有80个机器和2个惠普交换机。
Google在2004年4月发布的IPO S-1表单后,大财政公司的英特网开发单位副总裁Tristan Louis估计了现在的服务器场包含下列各项 [1]:
- 719个服务器架
- 63,272台机器
- 126,544个處理器
- 253,088 GHz的處理能力
- 126,544 GB内存
- 5,062 TB的硬盘空间
依照这一估计,Google服务器场组成了全球最强大的超级计算机,每秒运行速度至少三倍于地球模拟器。
[编辑] PageRank
Google使用一種名為PageRank的演算法,配合搜尋字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權係數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的链接,與及與人關聯的重要性。先前的排名搜尋方法,採用了許多搜尋器,以搜尋的關鍵詞和何時搜尋來排名頁面,或有多相關地關聯該搜尋。另外,Google亦採用其他秘密準則,決定排名網頁的結果。
Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDF、Word文件、Excel試算表,以及純文字檔案。除了文本文件,其他文件的是先转换为HTML版本后缓存的。所以借助Google可以不需要有这些文件的相应程序就可以看见这些非网页文件,如Word或是Excel。
Google创新的搜索技术和典雅的用户界面设计使Google从第一代搜索引擎中脱颖而出。Google并非只使用关键词或代理搜索技术,它将自身建立在高级 PageRank™(网页级别)技术基础之上。这项专利技术可确保始终将最重要的搜索结果首先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google还对投票的网页进行分析。Google复杂的自动搜索方法和结构设计被认为可以避免任何人为感情因素提供公正的搜索结果。随着搜索引擎优化(SEO)和各种针对PageRank的交换链接的行为的流行,Google的PageRank及公正性也越来越受到人们的质疑。
使用者能自定义搜寻引擎。他们能设定一个缺省语言或使用 "SafeSearch" 过滤技术,设定在每页上被显示的结果多少。Google受争议的放置永久cookie在用户的机器上以储存这些信息,这使他们能够了解过去用户的搜索内容。任何一次搜索请求(只有头10个关键字被查询),每次最多查询头1000个结果(以每一页最多100个结果的方式显示)。
尽管它有极大的索引数目,仍然有相当多数量的数据库的数据只能是从网站访问到,而不是藉由连接。这所谓的深网暂时不能被Google数据库所覆盖,举例来说包含了图书馆的目录,官方的法定(政府)公文,电话簿等。
(关于 PageRank™ 的介绍,参见 Google的 Why Use Google 页)
[编辑] Google跳舞
Google跳舞是一种经常被讨论的现象,Google跳舞指的是Google月底大量更新数据库和算法的几天时间,因为可以发现,这几天对Google搜索关键字如www.yahoo.com得到的结果数是不一样的。在跳舞期间,一个站点的等级可能在短时间里戏剧般的改变,而且不同的Google服务器(举例来说:www.google.com,www2.google.com,www3.google.com,www.google.co.uk,www.google.com.tw等)可能为相同的关键字提供不同的结果。跳舞似乎当是googlebot机器人抓取网页期间随即发生的。快速更新的网站,高级别的网页和新闻网站是最经常被检查的,虽然新闻不一定如此。小的调节在每月里持续进行以确定网页级别。在一些情况下,可能需要二到三个月让新建页面出现在搜索结果里。从2003年的夏季开始,每月的搜索,索引和等级更新被不间断的持续更新所取代。这种改变大大减少了Google搜索结果的不稳定性。2003年11月15日,Google似乎进行了有史以来最重要的一次算法升级,后来被称为“佛罗里达更新”。在这次更新中,几乎所有商业领域的关键词都受到了影响,尤其是一些热门的关键词,Google搜索的结果页完全变了个样儿,很多头一天还排在首位的网站被远远甩到了500名之后。
Google目前的主要挑战之一是,它的算法和结果越是得到网路使用者的信赖,商业网站为了利益而暗中破坏结果的风险就越戏剧般的增加。一些搜索引擎优化公司已经开始尝试使用各种不同的技巧提升Google网页评级,以使他们客户的网站更多的被搜索到。Google已经设法减少了一些已知的使用这种方法的网站的Google页面评级。
由于Google实际上已经成为最流行的搜索引擎之一,很多网站管理员十分热衷于跟踪他们网站在Google上的左侧排名,并试图解释他们排名变化的原因。现在已有不少网站提供排名Google搜索引擎优化(Search Engine Optimization,SEO)服務,如在一些高流量的讨论区内刻意加入商业网站的链接,从而使该网站在Google的排名提高。这种“发明”虽然的确有一定成效,但这种收取客户金钱,在第三者的讨论区上大卖广告,一方面对讨论区的读者造成困扰,也侵害了讨论区的商业利益;这种做法也明显违反了商业道德。
还有一种被普遍采用的技术是很多网站使用一个相同的关键字连接到某一个特定的网站,以使用户在Google搜索这个关键字的时候,这个网站的排名会出现在结果的较前面。这种方法被称为Google炸弹。现在Google算法更新的频率非常快,据猜测,现在算法公式中涉及的变量有300多个,PageRank™在整个Google算法中的影响力已经下降到20%左右,最终平衡的算法中最重要的变量所占的比例不会超过10%,单纯靠技术手段提升排名的网站已经禁不住时间的考验。
Google发布了一系列的 文章 以指导站长们提升他们网站的页面评级。
[编辑] SearchWiki
SearchWiki是Google搜索引擎Web 2.0化的一個體現,讓登錄的用戶得以參與搜索結果的評等。在每個搜索結果中新增了「調升」、「移除」與「評論」的按鈕:「調升」允許用戶將某搜索結果提升到前方;「移除」則可以刪除某搜索結果;「評論」則可以針對某搜索結果留下意見。為防止惡作劇與破壞損害了搜索結果可信度,以上的變動都會記錄下登錄用戶名,而且其他登錄用戶也能看到誰做了什麼改變。
典型的Web 2.0概念網站維基百科創始人吉米·威爾士亦曾提出透過讓用戶參與評等以集用戶群力加強搜索結果有效度的想法,其具體實現即為Wikia Search(http://search.wikia.com ,曾暫稱「Wikiasari」)。
[编辑] 搜索产品
除了搜尋網頁工具,Google還提供搜尋圖像、網上論壇、新聞、影片、當地搜尋、地圖、桌面搜尋等服務。2006年,Google已經索引了250億個網頁與及13億張圖像。
Google還有並非直接與搜尋相關的產品。例如Gmail是一個電子郵件服務,但仍包括搜索功能;Google Browser Sync不提供任何搜索工具,旨在組織您的瀏覽時間。
[编辑] 故障
2009年1月31日晚間10時46分(UTC+8)左右,Google搜索引擎的中英文等搜索的结果全部加上了“该网站可能含有恶意软件,有可能会危害您的电脑”。其间,Google的网站管理员中心无法访问,显示“Server Error(服务器故障)”。並且有短暫的修復,之後問題仍然存在。此现象約至11時18分(UTC+8)结束,前后至少30分钟。后Google在官方博客中证实,這是個人為失誤,由于恶意网址库中不慎包含了地址“/”,导致所有包含「/」的網址皆被認為包含可能傷害電腦的軟體。[3] 在这个故障后,Google News也出现了一些小的问题。
[编辑] google搜索在中国
Google.com曾經多次被中國官方封鎖。2009年6月24日21時左右,北京的互聯網用户無法訪問Google.com和Gmail。在中国大陆使用代理服务器等手段(俗称翻墙)可以正常访问。这证明此次Google.com无法在大陆访问并非Google技术原因而是被大陆官方封锁。约两小时后,Google服务恢复访问[4]。
2010年1月14日,中國Google的gmail遭到駭客入侵,並企圖瀏覽中國維權人士的信箱。Google申明,其搜索服务将退出中國大陆市場並解除自我审查,将google的服务器从北京移至香港,且提供简体中文的搜寻。但其它服务仍然在中国大陆运营(例如google音乐),google.cn等曾经的中国google搜索域名依旧有效。香港google允许用户搜索任何内容(包括不被中国政府允许的内容)。目前,虽然在中国大陆可以正常使用google的搜索服务,但在用户搜索敏感词时,就会被防火长城检测到,并重置连线。短暂禁止该用户IP访问google数分钟,随后再次接通。虽然Gmail目前在中国大陆可以正常使用,但访问速度不稳定,时快时慢。
[编辑] 国际化
Google可以搜素很多的语言,并且提供了多种语言的界面[5]。
为了达到幽默效果,google还提供了以下几种语言的界面:
[编辑] 参见
[编辑] 参考文献
- ^ WHOIS - google.com [2007-08-10].
- ^ Alexa Google traffic results. Alexa [2009-11-15].
- ^ Google的官方博客声明
- ^ Kathrin Hille and Richard Waters. China blocks Google website. FT.com. June 24 2009 [2009-6-25] (英文).
- ^ 让 Google 说您的语言. Google [2010-06-23].
[编辑] 外部链接
|
|||||||||||||||||||||||||||||||||||