【京東】商品list列表采集


采集場景

京東首頁(https://www.jd.com/)有很多商品分類,商品分類共三級。鼠標點擊三級分類中的某個具體類別后,跳轉到此類別的商品列表,跳轉網址以list開頭。采集list開頭的商品列表數據。

實例:點擊【家用電器】-【電視】-【平板電視】這個分類,跳轉到【平板電視】分類的商品列表,跳轉網址為 https://list.jd.com/list.html?cat=737,794,798 。

 

 

鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖

下文其他圖片同理 

 

采集字段

商品名稱、價格、商品詳情鏈接、商品sku、店鋪名稱、店鋪鏈接、店鋪id、總評價數、選購指數、店鋪類型、圖片地址、當前頁面網址、一級類目、二級類目、三級類目等多個字段。

 

采集結果

采集結果可導出為Excel,CSV,HTML,數據庫等多種格式。導出為Excel示例:

 

 

教程說明

本篇制作時間:2020/4/24    八爪魚版本:V8.1.8

如果因網頁改版造成網址或步驟無效,無法采集到目標數據,請聯系官方客服,我們將及時修正。

 

采集步驟

步驟一、打開網頁

步驟二、創建【循環翻頁】,以采集多頁數據

步驟三、創建【循環列表】,采集所有商品列表中的數據

步驟四、編輯字段

步驟五、添加新字段

步驟六、啟動采集

 

以下為具體步驟:

 

步驟一、打開網頁

 

1、打開網頁

在首頁【輸入框】中輸入目標網址 https://list.jd.com/list.html?cat=737,794,798,點擊【開始采集】,八爪魚自動打開網頁。

 

 

特別說明:

a. 打開網頁后,如果開始開始【自動識別】,請點擊【不再自動識別】或【取消識別】將其關掉。因為本文不適合使用【自動識別】。

b. 【自動識別】適用於自動識別網頁上的列表、滾動和翻頁,識別成功后直接啟動采集即可獲取數據。詳情點擊查看 【自動識別】教程

c. 示例中的網址 https://list.jd.com/list.html?cat=737,794,798 是點擊【家用電器】-【大家電】-【平板電視】后獲得的list網址。大家可以根據需求,更換一級、二級、三級分類,以獲得不同類別的list網址,結構同 https://list.jd.com/list.html?cat= 即可。

 

2、設置滾動

打開網頁后,京東默認只顯示前30個商品列表。向下滾動頁面到底部,才會加載出全部60個商品列表,在八爪魚中也需設置滾動。

進入【打開網頁】設置頁面,點開【頁面加載后】,設置【頁面加載后向下滾動】,滾動方式為【向下滾動一屏】,【滾動次數】為10次,【每次間隔】0.5秒 ,設置后保存。

 

 

特別說明:

a. 設置中的滾動次數和時間間隔,請根據采集需求和網頁加載情況進行設置,並非是一成不變的,具體請點擊查看 處理滾動加載數據的網頁教程

 

步驟二、創建【循環翻頁】,以采集多頁數據

 

1、創建【循環翻頁】

如果只是采集一頁數據,可跳過此步驟。

如果需要翻頁以采集多頁數據:選擇頁面中的【下一頁】按鈕,在操作提示上單擊【循環點擊下一頁】,創建【循環翻頁】。

 

 

特別說明:

a. 創建【循環翻頁】后,八爪魚會自動點擊【下一頁】按鈕進行翻頁,從第1頁,第2頁......直到最后1頁。如果只需采集特定頁的數據,可在八爪魚中設置循環翻頁的次數,詳情點擊查看  翻頁以采集多頁數據教程

b. 在選中【下一頁】范圍時,選中的范圍不同,彈出的提示也不同。如果選中的是最里層的文字【下一頁】,黃色操作提示框中彈出的提示是【循環點擊下一頁】。如果選中的是最整個【下一頁】按鈕,黃色操作提示框中彈出的提示是【循環點擊單個鏈接】。兩者的作用相同,都是為了實現翻頁。

 

2、設置滾動

翻頁后打開新的一頁,同樣的默認只顯示前30個商品列表。向下滾動頁面到底部,才會加載出全部60個商品列表,在八爪魚中也需設置滾動。

進入【點擊翻頁】設置頁面,點開【頁面加載后】,設置【頁面加載后向下滾動】,滾動方式為【向下滾動一屏】,【滾動次數】為10次,【每次間隔】0.5秒 ,設置后保存。

 

 

特別說明:

a. 設置中的滾動次數和時間間隔,請根據采集需求和網頁加載情況進行設置,並非是一成不變的,具體請點擊查看 處理滾動加載數據的網頁教程

 

步驟三、創建【循環列表】,采集所有商品列表中的數據

 

通過以下連續4步,采集所有商品列表中的數據:

1、選中頁面上1個商品列表(注意一定要選中整個列表,包含所有所需字段) 

2、在黃色操作提示框中,點擊【選中子元素】

3、點擊【選擇全部】

4、點擊【采集數據】

 

 

特別說明:

a. 經過以上連續4步,【循環-提取數據】創建完成。【循環】中的項,對應着頁面上所有商品列表,【提取數據】中的字段,對應着每個商品列表中的字段。啟動采集以后,八爪魚就會按照循環中的順序依次提取每個列表中的字段。 

b. 為何通過以上4步,可建立【循環-提取數據】?詳情點擊查看 列表數據采集教程 

 

步驟四、編輯字段

 

進入【提取列表數據】設置頁面,可刪除多余字段,修改字段名,移動字段順序等。 

 

 

 

步驟五、增加新字段

 

1、提取一級分類、二級分類、三級分類的文本

選中頁面中一級分類的文本(示例中為家用電器),然后在操作提示框中,點擊【采集該元素文本】,以將其采集下來。

二級分類、三級分類提取方法相同。

 

 

2、提取商品詳情鏈接和店鋪鏈接

在當前商品列表中(在網頁中用紅色框框起來),選中商品標題,在操作提示框中點擊【A】,然后點擊【采集該鏈接地址】。

店鋪鏈接采集方法也是一樣的。

 

 

特別說明:

a. 為什么在選中商品標題后要點擊【A】,才能采集到商品鏈接?鏈接在網頁源碼中以A標簽表示,所以要選擇【A】,詳情請點擊查看  不同數據類型(文本、圖片、鏈接、源碼等)的抓取方式 教程

b. 一定要在當前商品列表中選擇商品標題,做【采集該鏈接地址】,否則【采集該鏈接地址】步驟無法與【循環】中的商品列表產生聯動,會一直重復采集某一個條商品鏈接。店鋪鏈接也是一樣的。

c. 如何找到當前商品列表?在【循環列表】中查看當前項(藍色背景),然后點擊【提取列表數據】,網頁中被紅色框框起來的商品列表,就是當前商品列表。

 

3、提取商品sku和店鋪id

商品sku和店鋪id比較特殊,需先獲得商品詳情鏈接和店鋪鏈接,然后格式化處理。

通過上一步,已獲取商品詳情鏈接和店鋪鏈接,現開始格式化。

 

商品sku 格式化:點擊字段后的   按鈕,選擇【格式化數據】→ 點擊【添加步驟】→【正則表達式匹配】→【試試正則工具】,按下圖進行配置后保存。

店鋪id格式化過程同上。

 

 

特別說明:

a. 什么是數據格式化?數據采集下來之后,有時候格式不是我們想要的,或者只想從一段數據里提取特定數據,可通過八爪魚的【格式化數據】功能實現。詳情點擊查看 數據格式化教程 。

 

步驟六、啟動采集

 

1、單擊【采集】並【啟動本地采集】。啟動后八爪魚開始自動采集數據。

 

  

特別說明:

a. 【本地采集】是使用自己的電腦進行采集,【雲采集】是使用八爪魚提供的雲服務器采集,點擊 查看具體說明

 

2、采集完成后,選擇合適的導出方式導出數據。支持導出為Excel、CSV、HTML、數據庫等。這里導出為Excel。數據示例:

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM