京東數據采集軟件使用教程


采集場景

打開京東商品詳情頁(實例網址:https://item.jd.com/100006607659.html#crumb-wrap ),采集點擊不同的參數(顏色、版本等)后得到的數據(商品編號、價格、主圖鏈接等字段會隨着參數變化而變化)。

 

 

鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖

下文其他圖片同理

 

采集字段

商品標題、顏色、版本、價格、商品名稱、商品編號、圖片網址等。

 

采集結果

采集結果可導出為Excel、CSV、HTML、數據庫等多種格式。導出為Excel示例:

 

 

教程說明

本篇制作時間:2020/4/26    八爪魚版本:V8.1.8

如果因網頁改版造成網址或步驟無效,無法收集到目標數據,請聯系官方客服,我們將及時修正。

 

采集步驟

步驟一、打開網頁

步驟二、循環點擊顏色屬性,並提取對應文本

步驟三、循環點擊版本屬性,並提取對應文本

步驟四、提取其他字段

步驟五、編輯字段

步驟六、啟動采集

 

以下為具體步驟:

 

步驟一、打開網頁

 

在首頁輸入框中,輸入網址 https://item.jd.com/100006607659.html#crumb-wrap ,然后點擊【開始采集】,八爪魚自動打開網頁。

 

  

特別說明:

a. 打開網頁后,如果開始開始【自動識別】,請等待自動識別完成。八爪魚支持自動識別網頁上的列表、滾動和翻頁,識別成功后直接啟動采集即可獲取數據。如果【自動識別】的結果不是我們需要的,可點擊【取消】關閉智能識別,自行配置采集流程。詳情點擊查看 【自動識別】

 

步驟二、循環點擊顏色屬性,並提取對應文本

 

通過以下幾步,實現點擊每個顏色屬性並提取對應文本

1、循環點擊顏色屬性

2、提取顏色屬性的文本

3、將循環點擊顏色屬性與提取顏色文本聯動起來

 

1、循環點擊顏色屬性

① 選中頁面上第1個顏色屬性

② 在黃色操作提示框中,選擇【選中全部】

③ 選擇【循環點擊每個鏈接】

 

 

特別說明:

a. 經過以上連續3步,【循環-點擊元素】創建完成。【循環】中的項,對應着頁面上所有顏色屬性。啟動采集以后,八爪魚就會按照循環中的順序依次點擊每個顏色屬性。

b. 為何通過以上3步,可建立【循環-點擊元素】?詳情點擊查看 采集點擊多個鏈接后的詳情頁數據教程 。

 

2、提取顏色屬性的文本

選中頁面中的顏色屬性框,在操作提示框中選擇【采集該鏈接文本】,顏色屬性的文本提取下來。

 

 

3、將循環點擊顏色屬性與提取顏色文本聯動起來

進入【提取數據】設置頁面,勾選【采集當前循環中設置的元素】后保存。

點擊【顏色】字段后的  按鈕,勾選【相對於循環里的XPath】后保存。

 

 

特別說明:

a. 什么是【相對於循環里的XPath】?點擊查看 相對XPath教程

 

步驟三、循環點擊版本屬性,並提取對應版本文本

 

通過以下幾步,實現點擊每個版本屬性並提取對應文本

1、循環點擊版本屬性

2、提取版本屬性的文本

3、將循環點擊版本屬性與提取版本文本聯動起來

 

1、循環點擊版本屬性

① 選中頁面上第1個版本屬性

② 在黃色操作提示框中,選擇【選中全部】

③ 選擇【循環點擊每個鏈接】

 

 

特別說明:

a. 經過以上連續3步,【循環-點擊元素】創建完成。【循環】中的項,對應着頁面上所有版本屬性。啟動采集以后,八爪魚就會按照循環中的順序依次點擊每個版本屬性。

b. 為何通過以上3步,可建立【循環-點擊元素】?詳情點擊查看 采集點擊多個鏈接后的詳情頁數據教程 。

 

2、提取版本屬性的文本

選中頁面中的版本屬性框,在操作提示框中選擇【采集該鏈接文本】,版本屬性的文本提取下來。

 

 

3、將循環點擊版本屬性與提取版本文本聯動起來

進入【提取數據】設置頁面,勾選【采集當前循環中設置的元素】后保存。

點擊【版本】字段后的  按鈕,勾選【相對於循環里的XPath】后保存。

 

 

特別說明:

a. 什么是【相對於循環里的XPath】?點擊查看 相對XPath教程

b. 經過步驟二和步驟三,版本屬性的【循環-點擊元素】內嵌在顏色屬性的【循環-點擊元素】中,根據 采集原理與流程執行邏輯 中學到的知識,我們知道它會從上到下,由內而外執行流程,展示出每種顏色屬性和版本屬性的組合,以采集其對應數據,如下圖所示。如果有更多其他屬性,則繼續向內建立嵌套循環。

 

步驟四、提取其他字段

 

選中頁面中的文本,然后在操作提示框中,點擊【采集該元素文本】。

文本類字段都可以按照這樣的方式提取。示例中我們提取了商品標題、商品價格、主圖鏈接、商品編號等多個字段。

 

 

特別說明:

a. 文本、圖片、視頻、源碼是不同的數據形式,在操作提示框選擇提取方式時稍有不同。文本一般為【采集該元素文本】,圖片一般為【采集該圖片地址】,更多提取方式請點擊查看  不同數據類型(文本、圖片、鏈接、源碼等)的抓取方式 教程

 

步驟五、編輯字段

 

1、編輯字段

進入【提取數據1】設置頁面,可刪除多余字段,修改字段名,移動字段順序等。

 

 

2、格式化字段

【商品名稱】和【商品編號】這2個字段,默認提取的內容有與表頭重復的部分。如果沒關系,可跳過此步驟。

如果想要去掉內容中多余的部分,可使用數據格式化功能。

以【商品名稱】格式化為例:點擊字段后的   按鈕,選擇【格式化數據】→ 點擊【添加步驟】,選擇【替換】,將【商品名稱:】替換為【空】,輸出【華為P40 Pro】並保存。

 

 

特別說明:

a. 數據格式化是什么?點擊查看 數據格式化教程 。

 

步驟六、啟動采集

 

1、單擊【采集】並【啟動本地采集】。啟動后八爪魚開始自動采集數據。

 

 

特別說明:

a. 【本地采集】是使用自己的電腦進行采集,【雲采集】是使用八爪魚提供的雲服務器采集,點擊查看 本地采集與雲采集詳解

 

2、采集完成后,選擇合適的導出方式來導出數據。支持導出為Excel,CSV,HTML,數據庫等。這里導出為Excel。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM