58電話號碼採集方法
介紹採集電話號碼的方法
建立採集任務
(01)將要採集的58網站地址複製下來(這裡只是舉的一個網站例子,其他網頁的採集,可以參考這個教程的步驟去進行採集規則的編輯)
(02)登入採集器
(03)選擇採集模式中的高階模式,點選開始採集
(04)編輯採集任務名稱,完成後點選“下一步”
編輯採集規則
(01)將複製的網頁地址貼上在八爪魚採集器內建瀏覽器的位址列中,點選跳轉,採集的網頁會在下方瀏覽器中開啟,流程設計器中會生成一個“開啟網頁”步驟
(02)將網頁下拉到底部,找到翻頁的按鈕,右鍵點選,選擇執行“迴圈點選這個元素”
(03)完成後流程設計器會生成一個翻頁迴圈,點選“自定義”進行設定
(04)選擇“元素文字=下一頁”這個選項,點選確定,完成翻頁迴圈的建立
(05)完成上述操作後,找到頁面中第一個房源資訊的方框,右鍵點選,在跳出的操作框中,選擇下圖紅色方框的選項“建立一個元素列表”
(06)將第一個房源的資訊”新增到列表“中,點選“繼續編輯列表”
(07)點選第二個方框中的房源資訊,同樣將其”新增到列表“中
(08)八爪魚會將具有相似特徵的元素抓取到列表中,如下圖,所有的資訊都被新增到列表,接著點選“建立列表完成“,
(09)再點選“迴圈”,完成列表的建立
(10)建立列表完成後流程圖,如左側所示,接著我們需要對採集電話號碼進行抓取,因為這個網頁的電話號碼都是圖片的格式,所以我們需要將改網頁切換成極速版的,再對需要的電話號碼進行採集,將網頁下拉到底部,找到“極速版”的按鈕右鍵點選,選擇執行“點選這個元素”
(11)如圖右鍵點選房源資訊中的電話號碼,在跳出的執行框中,選擇執行“抓取這個元素文字”,頁面中其他資料的資訊抓取,重複同樣的步驟即可
(12)抓取到的內容會顯示在右上方的操作框中,這裡可以修改採集欄位的名稱,到這裡我們就完成了電話號碼在網頁中的抓取
(13)由於每一頁都需要迴圈採集資料,所以我們需要將這個迴圈列表拖入到翻頁迴圈裡面。
(14)注意:流程是從上網頁執行的,所以這個迴圈列表需要放到點選翻頁的前面,否則會漏掉第一頁的資料。最終流程圖如下圖所示:點選儲存,進入下一個採集步驟
開始採集,資料匯出
(01)選擇採集方式,開始電話號碼的採集
(02)採集完成,有多個匯出格式可供選擇,可以根據需要點選,採集到的重複資料,採集器會自動識別出來,匯出時可以選擇是否去重。匯出後就可以檢視採集到的電話號碼。