作為國內最大的電商平台之一,京東數據采集具有多個維度。
有人需要采集商品信息,包括品類、品牌、產品名、價格、銷量等字段,以了解商品銷售狀況、熱門商品屬性,進行市場擴大和重要決策;
有人需要采集產品評論,以明確產品優缺點、市場意向,進行新商品調研優化;
除了以上之外,還有很多的應用場景等待挖掘。下面為大家詳細介紹京東數據采集的方法。
京東數據采集的方法
既然京東數據采集極為需要勢在必行,那么該如何進行操作呢?是找到要采集的京東網址,將數據一條條復制粘貼到excel表格中?還是找一個爬蟲工程師,寫爬蟲程序進行采集?
於普通人而言,這兩種方法成本極高,效率低下——第一種耗費大量人力,還可能有多次出錯;第二種成本很高且需要較長的學習時間,短時間內難以完成。有沒有一種普通人都能簡單采集京東的方法呢?八爪魚是簡單好用的選擇。
以下是我們整理的幾個京東數據采集教程,大家可以按圖文描述來操作即可,字段提取可根據自己的實際需求增減。
一、京東商品信息采集
采集內容:京東搜索關鍵詞后,出現的商品列表信息采集
采集字段:商品標題,商品鏈接,商品價格,商品圖片鏈接,商品評價數量,商品店鋪名稱,商品店鋪鏈接
采集網址:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=shouji&pvid=83e1eebb721c487f894c8de29435a7dd
采集教程:
步驟一 、創建一個新任務,輸入網址
在首頁【輸入框】中輸入目標網址,點擊【開始采集】。點擊【保存設置】,八爪魚中內置的瀏覽器會自動打開網頁,進行智能識別,稍微等待一會兒,八爪魚識別好之后,檢查采集設置是否正確,若識別正確,則點擊【生成采集設置】,若識別不對,可以點擊【切換識別按鈕】鏈接,直到找到識別正確的結果。
鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖
下文其他圖片同理
步驟二 、編輯字段
八爪魚自動為我們提取了列表中的所有字段,我們可以對這些字段進行刪除、修改字段名稱等操作。
1、刪除不需要的字段。選中字段,再點擊【更多字段操作】圖標,選擇刪除。
2、修改字段名稱。字段名稱相當於excel表頭,可選擇默認字段名,也可自定義輸入。
步驟三 、啟動采集
1、點擊【保存並啟動】,選擇【啟動本地采集】。啟動后八爪魚開始全自動采集數據。(本地采集是使用自己的電腦進行采集,雲采集是使用八爪魚提供的雲服務器采集)
2、采集完成后,選擇合適的導出方式導出數據。支持導出為Excel、CSV、HTML。這里導出為Excel。
數據示例:
二、京東商品詳情頁采集
采集內容:采集京東商品詳情頁的商品詳細信息。
采集字段:商品名稱,價格,優惠券,促銷,顏色,sku,商品基本參數,詳情HTML,店鋪名稱,商品屬性,頁面網址,優惠券,輪播圖等等。
采集網址:
https://item.jd.com/100011199522.html
https://item.jd.com/100004559325.html
https://item.jd.com/100006947212.html
https://item.jd.com/100008348542.html
https://item.jd.com/100010260230.html
采集教程:
1、首頁【輸入框】輸入“京東商品詳情”。八爪魚自動尋找相關的采集模板,將鼠標移到“京東商品詳情采集”模板上並單擊,進入模板詳情頁面。
鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖
下文其他圖片同理
特別說明:
a. 輸入網站名稱后無模板出現?請確保輸入的網站名稱正確。
2、點擊【立即使用】,閱讀模板介紹,按照模板介紹進行操作。
3、自行【配置參數】。輸入商品詳情頁鏈接,如:
https://item.jd.com/100011199522.html
https://item.jd.com/100004559325.html
https://item.jd.com/100006947212.html
https://item.jd.com/100008348542.html
https://item.jd.com/100010260230.html
如要輸入多個(1萬個以內)網址,請每個網址之間用回車換行。支持直接從Excel表格中直接復制黏貼一列網址進來。
4、然后點擊【保存並啟動】,選擇啟動【本地采集】。八爪魚自動啟動1個采集任務並采集數據。
5、數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例:
三、京東評論信息采集
采集內容:采集京東商品詳情頁的商品評價信息。
采集字段:頁面標題,頁面網址,評論數,點贊數,時間,評價內容,評價星級,級別,會員
采集網址:
https://item.jd.com/100009177374.html
https://item.jd.com/100004559325.html
采集教程:
1、首頁【輸入框】輸入“京東”。八爪魚自動尋找相關的采集模板,將鼠標移到“京東商品評論”模板上並單擊,進入模板詳情頁面。
鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖
下文其他圖片同理
特別說明:
a. 輸入網站名稱后無模板出現?請確保輸入的網站名稱正確。
2、點擊【立即使用】,閱讀模板介紹,按照模板介紹進行操作。
3、自行【配置參數】。輸入商品詳情頁鏈接,如:
https://item.jd.com/100009177374.html
https://item.jd.com/100004559325.html
若要輸入多個(1萬個以內)網址,請每個網址之間用回車換行。支持直接從Excel表格中直接復制黏貼一列網址進來。
輸入要翻頁的次數,即點擊下一頁的次數。請輸入數字,如“5”,可實現只采集前5頁的內容。京東評論的限制最多顯示前100頁數據。
4、然后點擊【保存並啟動】,選擇啟動【本地采集】。八爪魚自動啟動1個采集任務並采集數據。
5、數據采集完成以后,可以需要的格式導出。這里以導出為【Excel】為例。
數據示例: