Google搜尋

維基百科,自由的百科全書
前往: 導覽搜尋
Google搜尋
Logo
Google web search.png
網址 google.com
商業性質?
網站類型 搜尋引擎
註冊 選擇性
語言 多國語言 (~100)
持有者 Google公司
創始者 拉里·佩奇謝爾蓋·布林
推出時間 1997年9月15日[1]
Alexa排名 1[2]
收入 來自廣告
現狀 發展中
Web search.jpg
本條目屬於網路搜尋引擎系列
網路搜尋引擎
元搜尋引擎
國際性搜尋引擎(多語言)
Google
Yahoo! Search
Bing
百度
僅中文搜尋引擎
有道
搜狗
搜搜
阿里雲搜尋
蕃薯藤
PChome Online
360搜尋
中國搜尋
宜搜
神馬搜尋
其他搜尋引擎
DuckDuckGo
AltaVista
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
其他連線

Google搜尋是由Google公司推出的一個網際網路搜尋引擎,它是網際網路上最大、影響最廣泛的搜尋引擎的首位。Google每日透過不同的服務,處理來自世界各地超過2億次的查詢。

除了搜尋網頁外,Google亦提供搜尋圖像、新聞組、新聞網頁、視訊的服務。2005年6月,Google已儲存超過80億的網頁,1億3千萬張圖片,以及超過1億的新聞組訊息 - 總計大概10億4千萬個項目。它也快取了編入索引中的絕大多數網頁的內容。

因為Google的名聲,「Google」一個事物做動詞表示的是「在Google上搜尋」。它還有引申義「在網際網路上搜尋」,甚至「(在實際環境中)搜尋」的意思。Google官方透過律師信強烈反對這種濫用他們公司名字的習慣,因為它可能會導致Google變成一個通用商標名。[3]

搜尋引擎[編輯]

物理構造[編輯]

Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜尋要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構)建造。索引是由程式Googlebot執行,它會定期地請求存取已知的索引建立新頁面。頁面更新愈快,Googlebot存取亦會愈多。再通過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁緩存大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google 檔案系統,儲存這些資料。

Google使用的這些機器的精確大小和位於何處至今未知;Google官方刻意含糊其詞。在John Hennessy和David A. Patterson所著的《電腦結構:走進大數》中,推測Google的伺服器場群集電腦群形成的「搜尋場」在2000年大約應該有6000個處理器,12000個普通IDE硬碟(即每個機器2個硬碟1個處理器),他們位於四個地方:二個在矽谷和二個在維吉尼亞。每個都以OC 48的線路(2488 Mbit/s,參見頻寬)連線著網際網路並且有一個OC 12(622 Mbit/s)線路連線著其他3個Google分站點。這些連線使用思科12000路由器(Gateway),用二個Foundry Networks BigIron 8000的乙太網交換器分流成4 x 1 Gbit/s的線路連線到64個伺服器夾,裡面前後各是40台電腦和1台惠普乙太網交換機,所以一個架子共有80個機器和2個惠普交換機。

Google在2004年4月發行的IPO S-1表單後,大財政公司的網際網路開發單位副總裁Tristan Louis估計了現在的伺服器場包含下列各項 [1]

  • 719個伺服器架
  • 63,272台機器
  • 126,544個處理器
  • 253,088 GHz的處理能力
  • 126,544 GB記憶體
  • 5,062 TB的硬碟空間

依照這一估計,Google伺服器場組成了全球最強大的超級電腦,每秒執行速度至少三倍於地球模擬器

PageRank[編輯]

Google使用一種名為PageRank的演算法,配合搜尋字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權係數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的連結,與及與人關聯的重要性。先前的排名搜尋方法,採用了許多搜尋器,以搜尋的關鍵詞和何時搜尋來排名頁面,或有多相關地關聯該搜尋。另外,Google亦採用其他秘密準則,決定排名網頁的結果。

Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDFWord檔案、Excel試算表,以及純文字檔案。除了文字檔案,其他檔案的是先轉換為HTML版本後快取的。所以藉助Google可以不需要有這些檔案的相應程式就可以看見這些非網頁檔案,如Word或是Excel。

Google創新的搜尋技術和典雅的使用者介面設計使Google從第一代搜尋引擎中脫穎而出。Google並非只使用關鍵詞代理搜尋技術,它將自身建立在高階 PageRank™(網頁級別)技術基礎之上。這項專利技術可確保始終將最重要的搜尋結果首先呈現給用戶。網頁級別可對網頁的重要性進行客觀的分析。用於計算網頁級別的公式包含5億個變數和20多億個項。網頁級別利用巨大的網路連結結構對網頁進行組織整理。當從網頁A連結到網頁B時,Google就認為「網頁A投了網頁B一票」。Google還對投票的網頁進行分析。Google複雜的自動搜尋方法和結構設計被認為可以避免任何人為感情因素提供公正的搜尋結果。隨著搜尋引擎最佳化(SEO)和各種針對PageRank的交換連結的行為的流行,Google的PageRank及公正性也越來越受到人們的質疑。

使用者能自訂搜尋引擎。他們能設定一個預設語言或使用 "SafeSearch" 過濾技術,設定在每頁上被顯示的結果多少。Google受爭議的放置永久cookie在用戶的機器上以儲存這些資訊,這使他們能夠了解過去用戶的搜尋內容。任何一次搜尋請求(只有頭10個關鍵字被查詢),每次最多查詢頭1000個結果(以每一頁最多100個結果的方式顯示)。

儘管它有極大的索引數目,仍然有相當多數量的資料庫的資料只能是從網站存取到,而不是藉由連線。這所謂的深網暫時不能被Google資料庫所覆蓋,舉例來說包含了圖書館目錄,官方的法定(政府)公文,電話簿等。

(關於 PageRank™ 的介紹,參見 Google的 Why Use Google 頁

Google跳舞[編輯]

Google跳舞是一種經常被討論的現象,Google跳舞指的是Google月底大量更新資料庫和演算法的幾天時間,因為可以發現,這幾天對Google搜尋鍵碼如www.yahoo.com得到的結果數是不一樣的。在跳舞期間,一個站點的等級可能在短時間裡戲劇般的改變,而且不同的Google伺服器(舉例來說:www.google.com,www2.google.com,www3.google.com,www.google.co.uk,www.google.com.tw等)可能為相同的關鍵字提供不同的結果。跳舞似乎當是googlebot機器人抓取網頁期間隨即發生的。快速更新的網站,高階別的網頁和新聞網站是最經常被檢查的,雖然新聞不一定如此。小的調節在每月里持續進行以確定網頁級別。在一些情況下,可能需要二到三個月讓新建頁面出現在搜尋結果里。從2003年的夏季開始,每月的搜尋,索引和等級更新被不間斷的持續更新所取代。這種改變大大減少了Google搜尋結果的不穩定性。2003年11月15日,Google似乎進行了有史以來最重要的一次演算法升級,後來被稱為「佛羅里達更新」。在這次更新中,幾乎所有商業領域的關鍵詞都受到了影響,尤其是一些熱門的關鍵詞,Google搜尋的結果頁完全變了個樣兒,很多頭一天還排在首位的網站被遠遠甩到了500名之後。

Google目前的主要挑戰之一是,它的演算法和結果越是得到網路使用者的信賴,商業網站為了利益而暗中破壞結果的風險就越戲劇般的增加。一些搜尋引擎最佳化公司已經開始嘗試使用各種不同的技巧提升Google網頁評級,以使他們客戶的網站更多的被搜尋到。Google已經設法減少了一些已知的使用這種方法的網站的Google頁面評級。

由於Google實際上已經成為國際上最流行的搜尋引擎,很多網站管理員十分熱衷於跟蹤他們網站在Google上的左側排名,並試圖解釋他們排名變化的原因。現在已有不少網站提供排名Google搜尋引擎最佳化(Search Engine Optimization,SEO)服務,如在一些高流量的討論區內加入商業網站的連結,從而使該網站在Google的排名提高。這種措施的確有一定成效,但這種收取客戶金錢,在第三者的討論區上展示廣告,對討論區的讀者造成困擾,也侵害了討論區的商業利益。

還有一種被普遍採用的技術是很多網站使用一個相同的關鍵字連線到某一個特定的網站,以使用戶在Google搜尋這個關鍵字的時候,這個網站的排名會出現在結果的較前面。這種方法被稱為Google炸彈。現在Google演算法更新的頻率非常快,據猜測,現在演算法公式中涉及的變數有300多個,PageRank™在整個Google演算法中的影響力已經下降到20%左右,最終平衡的演算法中最重要的變數所佔的比例不會超過10%,單純靠技術手段提升排名的網站已經禁不住時間的考驗。

Google發行了一系列的 文章 以指導站長們提升他們網站的頁面評級。

SearchWiki[編輯]

SearchWiki是Google搜尋引擎Web 2.0化的一個體現,讓登錄的用戶得以參與搜尋結果的評等。在每個搜尋結果中新增了「調升」、「解除安裝」與「評論」的按鈕:「調升」允許用戶將某搜尋結果提升到前方;「解除安裝」則可以刪除某搜尋結果;「評論」則可以針對某搜尋結果留下意見。為防止惡作劇與破壞損害了搜尋結果可信度,以上的變動都會記錄下登錄用戶名,而且其他登錄用戶也能看到誰做了什麼改變。

典型的Web 2.0概念網站維基百科創始人吉米·威爾士亦曾提出透過讓用戶參與評等以集用戶群力加強搜尋結果有效度的想法,其具體實現即為Wikia Searchhttp://search.wikia.com ,曾暫稱「Wikiasari」)。

搜尋產品[編輯]

除了搜尋網頁工具,Google還提供搜尋圖像、網上論壇、新聞、視訊、當地搜尋、地圖、桌面搜尋等服務。2006年,Google已經索引了250億個網頁與及13億張圖像。

Google還有並非直接與搜尋相關的產品。例如Gmail是一個電子信件服務,但仍包括搜尋功能;Google Browser Sync不提供任何搜尋工具,旨在組織使用者的瀏覽時間。

Google 即搜即得[編輯]

Google 即搜即得會在用戶輸入文字時,聯想詞以灰色形式在其後補充出來,同時立即展現搜尋結果。

Google即搜即得(Instant Search)是Google於2010年9月8日發行的一個新的搜尋技術[4],是一項搜尋增強功能,能夠使用戶在輸入內容的同時顯示搜尋結果,而不需要點選搜尋按鈕或者按下Enter鍵。這樣一來,用戶在輸入內容的同時就可瀏覽到相關的搜尋結果頁,大大節約了搜尋消耗的時間[5]

Google 即搜即得可以在用戶即使不知道要尋找什麼,其聯想查詢也對搜尋操作有啟動幫助,最熱門的聯想查詢詞語會以灰色的文字形式直接地顯示在搜尋框里,這樣當用戶一看到所需的搜尋結果時,就可以停止輸入了。[6]而用戶也可以選擇停用這一功能。[7]

對行動裝置的支援[編輯]

對於大多區域、語言,Google 即搜即得可以在應用 Android 2.2+ 或者 iOS 4+ 系統的行動裝置上作為測試版功能來使用。[8]

搜尋結果即時預覽[編輯]

Google在搜尋結果中提供即時預覽功能,可在點選搜尋結果前預覽對應的網頁。用戶在搜尋結果右側的灰色箭頭滑鼠懸停,右側空白處便會以圖片的形式給出相應的網頁即時預覽。在部分預覽中,預覽圖片上的相關程度較高的部分文字會突顯於顯示網頁上,從而幫助用戶更好地了解查詢字詞在網頁中將要出現的位置。[9]

預覽中還包含兩個連結,一個是快取網頁,另一個是類似結果。[10]

不過,有些搜尋結果可能不會提供預覽。[11]

故障[編輯]

File:Googlebug.jpg
Google搜尋錯誤頁面

2009年1月31日晚間10時46分(UTC+8)左右,Google搜尋引擎的中英文等搜尋的結果全部加上了「這個網站可能會損害您的電腦。」。其間,Google的網站管理員中心無法存取,顯示「Server Error(伺服器故障)」。並且有短暫的修復,之後問題仍然存在。此現象約至11時18分(UTC+8)結束,前後至少30分鐘。後Google在官方部落格中證實,這是個人為失誤,由於惡意網址庫中不慎包含了位址「/」,導致所有包含「/」的網址皆被認為包含可能傷害電腦的軟體。[12] 在這個故障後,Google News也出現了一些微小的問題。

駭客襲擊[編輯]

2013年8月26日,幾名巴勒斯坦的駭客劫持了「Google巴勒斯坦」的網域名稱然後使其重新導向至他們的網站,並在其網頁上寫了抗議文字。[13][14]

Google搜尋在中國[編輯]

Google.com曾經多次被中國官方以不明理由封鎖。2009年6月18日,中央電視台焦點訪談》節目宣稱谷歌的搜尋詞語聯想的功能傳播所謂色情低俗資訊。在輸入普通的詞語比如「母親」就會直接聯想到黃色詞語(但事實上在百度等中國大陸搜尋引擎同樣存在這種情況)。實情據谷歌Trends功能證據顯示在6月10日里來自北京的IP惡意刷入近百次黃色詞語,使黃色詞彙搜尋量猛增。在17日後,此關鍵詞慢慢回復至0,一時間谷歌備受中共喉舌媒體指責。2009年6月24日21時左右,北京的網際網路用戶無法存取Google.com和Gmail,但使用代理伺服器等手段(俗稱翻牆)可以正常存取。這證明此次Google.com無法在大陸存取並非Google技術原因而是被大陸官方惡意封鎖。約兩小時後,Google服務恢復存取[15]

2010年1月14日,Google旗下的Gmail遭到可能來自中國的駭客入侵,並企圖下載中國人權活動人士的電郵。Google後來宣布,Google.cn的搜尋服務將關閉,轉由香港網域名稱面向中國大陸用戶提供簡體中文服務。

國際化[編輯]

Google可以搜尋很多的語言,並且提供了多種語言的介面[16]

為了達到幽默效果,Google還提供了以下幾種語言的介面:

參見[編輯]

參考文獻[編輯]

外部連結[編輯]

Wiktionary-logo-zh.png
維基詞典上的詞義解釋: