采集場景
在京東搜索頁 https://search.jd.com/Search 輸入關鍵詞搜索,采集搜索后得到的多個商品列表數據。
鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖
下文其他圖片同理
采集字段
商品名稱、商品描述、商品詳情、價格、評論數、店鋪名稱、店鋪鏈接等字段。
采集結果
采集結果可導出為Excel,CSV,HTML,數據庫等多種格式。導出為Excel示例:
教程說明
本篇制作時間:2020/4/24 八爪魚版本:V8.1.8
如果因網頁改版造成網址或步驟無效,無法采集到目標數據,請聯系官方客服,我們將及時修正。
采集步驟
步驟一、打開網頁
步驟二、批量輸入多個關鍵詞並搜索
步驟三、創建【循環列表】,采集所有商品列表中的數據
步驟四、編輯字段
步驟五、創建【循環翻頁】,采集多頁數據
步驟六、設置滾動和修改【循環翻頁】XPath
步驟七、啟動采集
以下為具體步驟:
步驟一、打開網頁
在首頁【輸入框】中輸入目標網址 https://search.jd.com/Search ,點擊【開始采集】,八爪魚自動打開網頁。
特別說明:
a. 打開網頁后,如果開始【自動識別】,請點擊【不再自動識別】或【取消識別】將其關掉。因為本文不適合使用【自動識別】。
b. 【自動識別】適用於自動識別網頁上的列表、滾動和翻頁,識別成功后直接啟動采集即可獲取數據。詳情點擊查看 【自動識別】教程
步驟二、批量輸入多個關鍵詞並搜索
打開網頁后,通過以下幾步,實現批量輸入多個關鍵詞。
1、輸入1個關鍵詞並搜索
2、批量輸入多個關鍵詞
1、輸入1個關鍵詞並搜索
選中京東搜索框,在操作提示框中,點擊【輸入文本】,輸入關鍵詞並保存。
選中【搜索】按鈕,在操作提示框中,點擊【點擊該按鈕】,出現關鍵詞的搜索結果。
2、批量輸入多個關鍵詞
① 在【打開網頁1】步驟后,添加一個【循環】。
② 將【輸入文本】和【點擊元素】都拖入【循環】中。
③ 進入【循環】設置頁面。選擇循環方式為【文本列表】,點擊 按鈕,將我們准備好的關鍵字輸進去(可同時輸入多個關鍵字,一行一個即可)后保存。
④ 進入【輸入文本】設置頁面,勾選【使用當前循環里的文本來填充輸入框】后保存。
特別說明:
a. 示例中輸入的關鍵詞是【耐克】、【阿迪達斯】、【李寧】和【安踏】,可根據自身需求進行替換。
b. 一次最多輸入2W個關鍵字。可先准備一個包含多個關鍵字的文檔,然后將其復制粘貼進八爪魚中。
步驟三、創建【循環列表】,采集所有商品列表中的數據
通過以下連續4步,采集所有商品列表中的數據:
1、選中頁面上1個商品列表(注意一定要選中整個列表,包含所有所需字段)
2、在黃色操作提示框中,點擊【選中子元素】
3、點擊【選擇全部】
4、點擊【采集數據】
特別說明:
a. 經過以上連續4步,【循環-提取數據】創建完成。【循環】中的項,對應着頁面上所有商品列表,【提取數據】中的字段,對應着每個商品列表中的字段。啟動采集以后,八爪魚就會按照循環中的順序依次提取每個列表中的字段。
b. 為何通過以上4步,可建立【循環-提取數據】?詳情點擊查看 列表數據采集教程 。
步驟四、編輯字段
在【當前頁面數據預覽】頁面,可刪除多余字段,修改字段名,移動字段順序等。
步驟五、創建【循環翻頁】,以采集多頁數據
1、創建循環翻頁
如果只是采集一頁數據,可跳過此步驟。
如果需要翻頁以采集多頁數據:選擇頁面中的【下一頁】按鈕,在操作提示上單擊【循環點擊下一頁】,創建【循環翻頁】。
特別說明:
a. 創建【循環翻頁】后,八爪魚會自動點擊【下一頁】按鈕進行翻頁,從第1頁,第2頁......直到最后1頁。如果只需采集特定頁的數據,可在八爪魚中設置循環翻頁的次數,詳情點擊查看 翻頁以采集多頁數據教程。
b. 在選中【下一頁】范圍時,選中的范圍不同,彈出的提示也不同。如果選中的是最里層的文字【下一頁】,黃色操作提示框中彈出的提示是【循環點擊下一頁】。如果選中的是最整個【下一頁】按鈕,黃色操作提示框中彈出的提示是【循環點擊單個鏈接】。兩者的作用相同,都是為了實現翻頁。
步驟六、設置滾動和修改【循環翻頁】XPath
1、設置滾動
點擊搜索和翻頁后,京東默認只顯示前30個商品列表。向下滾動頁面到底部,才會加載出全部60個商品列表,在八爪魚中也需設置滾動。
進入【點擊元素】和【點擊翻頁】設置頁面,點開【頁面加載后】,設置【頁面加載后向下滾動】,滾動方式為【向下滾動一屏】,【滾動次數】為6次,【每次間隔】2秒 ,設置后保存。
2、修改【循環翻頁】XPath
默認的【循環翻頁】XPath會在最后一頁重復翻頁,導致其他關鍵詞無法輸入並采集,需修改【循環翻頁】XPath。
進入【循環翻頁】設置頁面,修改XPath為://a[@class="pn-next"]/EM[text()="下一頁"] 。
特別說明:
a. 為什么會不結束翻頁?這是因為【循環翻頁】默認生成的XPath,在最后1頁時,仍然能定位到【下一頁】按鈕,這就會導致其一直點擊【下一頁】按鈕,不結束翻頁。為了解決這個問題,我們需要手動寫一條XPath,使之在當前頁為非最后一頁時,都能定位到【下一頁】按鈕,以實現不斷點擊【下一頁】按鈕進行翻頁。同時在當前頁為最后一頁時,不定位到【下一頁】按鈕,以結束翻頁。這里需要一定的XPath知識。點擊查看 XPath學習與實例教程
b. 設置中的滾動次數和時間間隔,請根據采集需求和網頁加載情況進行設置,並非是一成不變的,具體請點擊查看 處理滾動加載數據的網頁教程
步驟七、啟動采集
1、單擊【采集】並【啟動本地采集】。啟動后八爪魚開始自動采集數據。
特別說明:
a. 【本地采集】是使用自己的電腦進行采集,【雲采集】是使用八爪魚提供的雲服務器采集,點擊查看 本地采集與雲采集詳解。
2、采集完成后,選擇合適的導出方式導出數據。支持導出為Excel、CSV、HTML、數據庫等。這里導出為Excel。
數據示例: