采集場景
京東首頁(https://www.jd.com/)有很多商品分類,商品分類共三級。鼠標點擊三級分類中的某個具體類別后,跳轉到此類別的商品列表,跳轉網址以list開頭。采集list開頭的商品列表數據。
實例:點擊【家用電器】-【電視】-【平板電視】這個分類,跳轉到【平板電視】分類的商品列表,跳轉網址為 https://list.jd.com/list.html?cat=737,794,798 。
鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖
下文其他圖片同理
采集字段
商品名稱、價格、商品詳情鏈接、商品sku、店鋪名稱、店鋪鏈接、店鋪id、總評價數、選購指數、店鋪類型、圖片地址、當前頁面網址、一級類目、二級類目、三級類目等多個字段。
采集結果
采集結果可導出為Excel,CSV,HTML,數據庫等多種格式。導出為Excel示例:
教程說明
本篇制作時間:2020/4/24 八爪魚版本:V8.1.8
如果因網頁改版造成網址或步驟無效,無法采集到目標數據,請聯系官方客服,我們將及時修正。
采集步驟
步驟一、打開網頁
步驟二、創建【循環翻頁】,以采集多頁數據
步驟三、創建【循環列表】,采集所有商品列表中的數據
步驟四、編輯字段
步驟五、添加新字段
步驟六、啟動采集
以下為具體步驟:
步驟一、打開網頁
1、打開網頁
在首頁【輸入框】中輸入目標網址 https://list.jd.com/list.html?cat=737,794,798,點擊【開始采集】,八爪魚自動打開網頁。
特別說明:
a. 打開網頁后,如果開始開始【自動識別】,請點擊【不再自動識別】或【取消識別】將其關掉。因為本文不適合使用【自動識別】。
b. 【自動識別】適用於自動識別網頁上的列表、滾動和翻頁,識別成功后直接啟動采集即可獲取數據。詳情點擊查看 【自動識別】教程
c. 示例中的網址 https://list.jd.com/list.html?cat=737,794,798 是點擊【家用電器】-【大家電】-【平板電視】后獲得的list網址。大家可以根據需求,更換一級、二級、三級分類,以獲得不同類別的list網址,結構同 https://list.jd.com/list.html?cat= 即可。
2、設置滾動
打開網頁后,京東默認只顯示前30個商品列表。向下滾動頁面到底部,才會加載出全部60個商品列表,在八爪魚中也需設置滾動。
進入【打開網頁】設置頁面,點開【頁面加載后】,設置【頁面加載后向下滾動】,滾動方式為【向下滾動一屏】,【滾動次數】為10次,【每次間隔】0.5秒 ,設置后保存。
特別說明:
a. 設置中的滾動次數和時間間隔,請根據采集需求和網頁加載情況進行設置,並非是一成不變的,具體請點擊查看 處理滾動加載數據的網頁教程
步驟二、創建【循環翻頁】,以采集多頁數據
1、創建【循環翻頁】
如果只是采集一頁數據,可跳過此步驟。
如果需要翻頁以采集多頁數據:選擇頁面中的【下一頁】按鈕,在操作提示上單擊【循環點擊下一頁】,創建【循環翻頁】。
特別說明:
a. 創建【循環翻頁】后,八爪魚會自動點擊【下一頁】按鈕進行翻頁,從第1頁,第2頁......直到最后1頁。如果只需采集特定頁的數據,可在八爪魚中設置循環翻頁的次數,詳情點擊查看 翻頁以采集多頁數據教程。
b. 在選中【下一頁】范圍時,選中的范圍不同,彈出的提示也不同。如果選中的是最里層的文字【下一頁】,黃色操作提示框中彈出的提示是【循環點擊下一頁】。如果選中的是最整個【下一頁】按鈕,黃色操作提示框中彈出的提示是【循環點擊單個鏈接】。兩者的作用相同,都是為了實現翻頁。
2、設置滾動
翻頁后打開新的一頁,同樣的默認只顯示前30個商品列表。向下滾動頁面到底部,才會加載出全部60個商品列表,在八爪魚中也需設置滾動。
進入【點擊翻頁】設置頁面,點開【頁面加載后】,設置【頁面加載后向下滾動】,滾動方式為【向下滾動一屏】,【滾動次數】為10次,【每次間隔】0.5秒 ,設置后保存。
特別說明:
a. 設置中的滾動次數和時間間隔,請根據采集需求和網頁加載情況進行設置,並非是一成不變的,具體請點擊查看 處理滾動加載數據的網頁教程
步驟三、創建【循環列表】,采集所有商品列表中的數據
通過以下連續4步,采集所有商品列表中的數據:
1、選中頁面上1個商品列表(注意一定要選中整個列表,包含所有所需字段)
2、在黃色操作提示框中,點擊【選中子元素】
3、點擊【選擇全部】
4、點擊【采集數據】
特別說明:
a. 經過以上連續4步,【循環-提取數據】創建完成。【循環】中的項,對應着頁面上所有商品列表,【提取數據】中的字段,對應着每個商品列表中的字段。啟動采集以后,八爪魚就會按照循環中的順序依次提取每個列表中的字段。
b. 為何通過以上4步,可建立【循環-提取數據】?詳情點擊查看 列表數據采集教程 。
步驟四、編輯字段
進入【提取列表數據】設置頁面,可刪除多余字段,修改字段名,移動字段順序等。
步驟五、增加新字段
1、提取一級分類、二級分類、三級分類的文本
選中頁面中一級分類的文本(示例中為家用電器),然后在操作提示框中,點擊【采集該元素文本】,以將其采集下來。
二級分類、三級分類提取方法相同。
2、提取商品詳情鏈接和店鋪鏈接
在當前商品列表中(在網頁中用紅色框框起來),選中商品標題,在操作提示框中點擊【A】,然后點擊【采集該鏈接地址】。
店鋪鏈接采集方法也是一樣的。
特別說明:
a. 為什么在選中商品標題后要點擊【A】,才能采集到商品鏈接?鏈接在網頁源碼中以A標簽表示,所以要選擇【A】,詳情請點擊查看 不同數據類型(文本、圖片、鏈接、源碼等)的抓取方式 教程
b. 一定要在當前商品列表中選擇商品標題,做【采集該鏈接地址】,否則【采集該鏈接地址】步驟無法與【循環】中的商品列表產生聯動,會一直重復采集某一個條商品鏈接。店鋪鏈接也是一樣的。
c. 如何找到當前商品列表?在【循環列表】中查看當前項(藍色背景),然后點擊【提取列表數據】,網頁中被紅色框框起來的商品列表,就是當前商品列表。
3、提取商品sku和店鋪id
商品sku和店鋪id比較特殊,需先獲得商品詳情鏈接和店鋪鏈接,然后格式化處理。
通過上一步,已獲取商品詳情鏈接和店鋪鏈接,現開始格式化。
商品sku 格式化:點擊字段后的 按鈕,選擇【格式化數據】→ 點擊【添加步驟】→【正則表達式匹配】→【試試正則工具】,按下圖進行配置后保存。
店鋪id格式化過程同上。
特別說明:
a. 什么是數據格式化?數據采集下來之后,有時候格式不是我們想要的,或者只想從一段數據里提取特定數據,可通過八爪魚的【格式化數據】功能實現。詳情點擊查看 數據格式化教程 。
步驟六、啟動采集
1、單擊【采集】並【啟動本地采集】。啟動后八爪魚開始自動采集數據。
特別說明:
a. 【本地采集】是使用自己的電腦進行采集,【雲采集】是使用八爪魚提供的雲服務器采集,點擊 查看具體說明。
2、采集完成后,選擇合適的導出方式導出數據。支持導出為Excel、CSV、HTML、數據庫等。這里導出為Excel。數據示例: