房源資訊如何採集

來源:酷知科普網 2.12W

隨著物聯網的發展,現在出現越來越多生活服務類的網站,這類網頁有許多的房源資訊,但這些資訊資料量很大,一個個去翻閱會浪費很多時間,今天我們就藉助資料採集器,來查詢我們需要房源資訊。

建立採集任務

(01)找到要採集的房源網站,選擇你要查詢的房源資訊,將選擇好的房源網站地址複製下來

房源資訊如何採集

(02)打開採集器,並登陸

房源資訊如何採集 第2張

(03)建立採集任務,完成採集任務及任務組名稱編輯,點選下一步

採集規則編輯

(01)將複製的網頁地址貼上在八爪魚採集器內建瀏覽器的位址列中,點選跳轉,採集的網頁會在下方瀏覽器中開啟,流程設計器中會生成一個“開啟網頁”步驟

房源資訊如何採集 第3張

(02)將網頁下拉到底部,找到翻頁的按鈕,右鍵點選,選擇執行“迴圈點選這個元素

房源資訊如何採集 第4張

(03)完成後流程設計器會生成一個翻頁迴圈,點選自定義進行設定

(04)選擇“元素文字=下一頁”這個選項,點選確定,完成翻頁迴圈的建立

建立提取資料列表

(01)完成後上述操作後,右鍵點選頁面中第一個房源資訊的方框,在跳出的操作框中,選擇下圖紅色方框的選項“建立一個元素列表”

房源資訊如何採集 第5張

(02)將第一個房源的資訊”新增到列表“中

房源資訊如何採集 第6張

(03)點選第二個方框中的房源資訊,同樣將其”新增到列表“中

房源資訊如何採集 第7張

(04)八爪魚會將具有相似特徵的元素抓取到列表中,如下圖,所有的群組資訊被新增到列表,接著點選“建立列表完成“,

房源資訊如何採集 第8張

(05)再點選“迴圈”,完成列表的建立

房源資訊如何採集 第9張

(06)建立列表完成後流程圖,如左側所示,接著我們需要對採集的房源資訊進行抓取

提取要採集的文字資訊

(01)如圖點選房源中的標題,在跳出的執行框中,選擇執行”抓取這個元素文字”方框其他資料的資訊抓取,重複同樣的步驟即可

房源資訊如何採集 第10張

(02)抓取到的內容會顯示在右上方的操作框中,這裡可以修改採集欄位的名稱,到這裡我們就完成了房源資訊提取

(03)由於每一頁都需要迴圈採集資料,所以我們需要將這個迴圈列表拖入到翻頁迴圈裡面。

(04)注意:流程是從上網頁執行的,所以這個迴圈列表需要放到點選翻頁的前面,否則會漏掉第一頁的資料。最終流程圖如下圖所示:點選儲存,進入下一個採集步驟

開始採集

(01)選擇採集方式,開始房源資訊的採集

(02)採集完成,有多個匯出格式可供選擇,可以根據需要點選,採集到的重複資料八爪魚採集器會自動識別出來,匯出時可以選擇是否去重,完成房源資訊的採集

房源資訊如何採集 第11張

特別提示

這裡採集的網頁,只是其中的一個網站例子,其他網頁的採集,可以參考這個教程的步驟去進行採集規則的編輯

熱門標籤