今日頭條資料採集:八爪魚教程
今日頭條資料採集:八爪魚教程
操作方法
(01)步驟1:建立採集任務1)進入主介面選擇,選擇“自定義模式”
(02)2)將上面網址的網址複製貼上到網站輸入框中,點選“儲存網址”
(03)3)儲存網址後,頁面將在八爪魚採集器中開啟,紅色方框中的資訊是這次演示要採集的內容
(04)步驟2:設定ajax頁面載入時間l 設定開啟網頁步驟的ajax滾動載入時間l 找到翻頁按鈕,設定翻頁迴圈l 設定翻頁步驟ajax下拉載入時間1)網頁開啟後,需要進行以下設定:開啟流程圖,點選“開啟網頁”步驟,在右側的高階選項框中,勾選“頁面載入完成向下滾動”,設定滾動次數,每次滾動間隔時間,一般設定2秒,這個頁面的滾動方式,選擇直接滾動到底部;最後點選確定
(05)注意:今日頭條的網站屬於瀑布流網站,沒有翻頁按鈕,這裡的滾動次數設定將影響採集的資料量
(06)步驟3:採集新聞內容l 建立資料提取列表1)如圖,移動滑鼠選中評論列表的方框,右鍵點選,方框底色會變成綠色然後點選“選中子元素”
(07)注意:點選右上角的“流程”按鈕,即可展現出視覺化流程圖。2)然後點選“選中全部”,將頁面中需要需要採集的資訊新增到列表中
(08)點選注意: 在提示框中的欄位上會出現一個“X”標識,點選即可刪除該欄位。
(09)3)點選“採集以下資料”
(10)4)修改採集欄位名稱,點選下方紅色方框中的“儲存並開始採集”
(11)步驟4:資料採集及匯出1)根據採集的情況選擇合適的採集方式,這裡選擇“啟動本地採集”
(12)說明:本地採集佔用當前電腦資源進行採集,如果存在採集時間要求或當前電腦無法長時間進行採集可以使用雲採集功能,雲採集在網路中進行採集,無需當前電腦支援,電腦可以關機,可以設定多個雲節點分攤任務,10個節點相當於10臺電腦分配任務幫你採集,速度降低為原來的十分之一;採集到的資料可以在雲上儲存三個月,可以隨時進行匯出操作。2)採集完成後,選擇合適的匯出方式,將採集好的資料匯出