搜尋引擎的基本工作原理

來源:酷知科普網 1.02W

現在網際網路上存在的網頁數量是數以百億千億計的,這些網站儲存在不同的伺服器上,
分佈在世界各地的資料中心和機房。

操作方法

(01)對於搜尋引擎來說, 要抓取網際網路上所有的網頁幾乎是不可能的, 從目前公佈的資料來看, 容量最大的搜尋引擎也不過是抓取了整個網頁數量的百分之四十左右。 一方面原因是抓取技術存在瓶頸,無法遍歷所有網頁,有許多網頁無法從其它網頁的連結中找到;另一個原因是儲存技術和處理技術的問題,如果按照每個頁面平均大小 20K 計算(包含圖片) ,100億網頁的容量是 100×2000G 位元組,即使能夠儲存,下載也存在問題(按照一臺機器每秒下載 20K 計算,需要 340 臺機器不停的下載一年時間,才能把所有網頁下載完畢) 。同時,由於資料量太大,在提供搜尋時也會有效率方面的影響。因此,許多搜尋引擎的網路蜘蛛只是抓取那些重要的網頁,而評價重要性的主要依據是某個網頁的連結深度。

(02)有人會認為搜尋引擎在接收到搜尋請求時,會實時地從全球所有的伺服器上查詢資訊,並把查詢結果展示在使用者面前,這其實是一種誤解。如果搜尋引擎是這樣工作的,那麼查詢一條資訊可能要等上好幾年才能得到搜尋結果,這還不包括期間網頁發生的變化。實際上, 搜尋引擎會預先去拜訪大量的網站, 並把這些網頁的部分資訊預先儲存在自己的伺服器上,這樣,當用戶搜尋的時候,其實是在搜尋引擎自己的伺服器中進行查詢,就像我們在自己的電腦中查詢檔案一樣。搜尋引擎是非常複雜的技術,但是其基本原理並不複雜,其基本技術包括抓取、索引、排序。

搜尋引擎的基本工作原理
熱門標籤