暗網是什麼?

來源:酷知科普網 3.14W

暗網一詞最初由Dr.Jill Ellsworth於1994年提出,指那些由普通搜尋引擎難以發現其資訊內容的Web頁面。因為這些資訊內容是使用者所看不到的,所以被稱為是暗網。

暗網是什麼?

暗網(Hidden Web)如其釋義所說,通常是指網路上大部分內容是不能通過靜態連結獲取的,特別是大部分隱藏在搜尋表單之後的頁面只有通過使用者鍵入一系列關鍵詞才可以獲得。形象的理解是,這些頁面是目前搜尋引擎所無法抓取的網頁、不能檢索到的資訊,即“看不見”的網站,由於當前的搜尋引擎不能索引到或不能在它們的返回結果中顯示這些頁面,因此對使用者來說這部分頁面是隱藏的。

來源

暗網(網際網路) Hidden Web最初由Dr.Jill Ellsworth於1994年提出,指那些由普通搜尋引擎難以發現其資訊內容的Web頁面。從資訊量來講,與現在能夠索引的資料相比,“暗網”更是要龐大得多。根據Bright Planet公司此前釋出的一個名為《The Deep Web-Surfacing The Hidden Value》(深層次網路,隱藏的價值)白皮書中提供的資料,“暗網”包含100億個不重複的表單,其包含的資訊量是“非暗網”的40倍,有效高質內容總量至少是後者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發現,無數網站越來越像孤立的系統,似乎沒有打算與別的網站共享資訊,如此一來,“暗網”已經成為網際網路新資訊增長的最大來源,也就是說,網際網路正在變得“越來越暗”。

暗網是什麼? 第2張

現狀

當然,所謂“暗網”,並不是真正的“不可見”,對於知道如何訪問這些內容的人來說,它們無疑是可見的。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過網際網路可以獲取,但普通搜尋引擎由於受技術限制而不能或不作索引的那些文字頁、檔案或其它通常是高質量、權威的資訊。根據最近對HiddenWeb的調查文獻得到了如下有意義的發現:

(1)Hidden Web大約有307,000個站點,450,000個後臺資料庫和1,258,000個查詢介面。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

(2)Hidden Web內容分佈於多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對佔更大比重。

(3)當今的爬蟲並非完全爬行不到Hidden Web後臺資料庫內,一些主要的搜尋引擎已經覆蓋Hidden Web大約三分之一的內容。然而,在覆蓋率上當前搜尋引擎存在技術上的本質缺陷。

(4)Hidden Web中的後臺資料庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。

(5)雖然一些Hidden Web目錄服務已經開始索引Web資料庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。

(6)Web資料庫往往位於站點淺層,多達94%的Web資料庫可以在站點前3層發現。

暗網是什麼? 第3張

暗網分類

一般情況下暗網可以根據其產生原因分為兩種:

一種是技術的原因,很多網站本身不規範、或者說網際網路本身缺少統一規則,導致了搜尋引擎的爬蟲無法識別這些網站內容並抓取,這不是搜尋引擎自身就能解決的問題,而是有賴整個網路結構的規範化,百度的“阿拉丁計劃”、谷歌的“雲端計算”就是要從根本解決這一問題。

另一個原因則是很多網站根本就不願意被搜尋引擎抓取,比如考慮到版權保護內容、個人隱私內容等等,很多網站都在遮蔽百度、比如最近最大的視訊分享網站優酷也宣佈遮蔽百度一樣,這更不是搜尋引擎能解決的問題了。如果他們能被搜尋引擎抓取到,就屬於違法了。

熱門標籤