采集場景
京東商品詳情頁中的評價,有多個分類:【全部評價】、【曬圖】、【視頻曬單】、【追評】、【好評】、【中評】、【差評】。其中【全部評價】默認展現,其他需點擊后展現。本文以按【差評】篩選采集為例講解。實例網址:https://item.jd.com/100005185609.html;https://item.jd.com/100006607505.html;https://item.jd.com/100004770263.html。
采集字段
評價正文、評價星級、商品參數、評價時間、頁面網址、評價獲贊數、評價獲回復數。
鼠標放到圖片上,右鍵,選擇【在新標簽頁中打開圖片】可查看高清大圖
下文其他圖片同理
采集結果
采集結果可導出為Excel、CSV、HTML、數據庫等多種格式。導出為Excel示例:

教程說明
本篇更新時間:2020/5/7 八爪魚版本:V8.1.8
如果因網頁改版造成網址或步驟無效,無法收集到目標數據,請聯系官方客服,我們將及時修正。
采集步驟
步驟一:打開網頁
步驟二、設置滾動
步驟三、按差評篩選評論
步驟四、創建【循環列表】,采集所有評價數據
步驟五、創建循環翻頁,以采集多頁數據
步驟六、啟動采集
以下為具體步驟:
步驟一、打開網頁
在首頁選擇【自定義任務】,輸入一批京東商品詳情頁網址,點擊【開始采集】,八爪魚自動打開第1個網址。
目標網址:https://item.jd.com/100005185609.html
https://item.jd.com/100006607505.html
https://item.jd.com/100004770263.html

特別說明:
a. 打開網頁后,如果開始開始【自動識別】,請等待自動識別完成。八爪魚支持自動識別網頁上的列表,滾動和翻頁,識別成功后直接啟動采集並獲取數據。如果【自動識別】的結果不是我們需要的,可點擊【取消】關閉智能識別,自行配置采集流程。詳情點擊查看【自動識別】
b. 以上操作會自動生成一個【循環網址】,啟動采集后,八爪魚會自動打開每個網址,采集每個網址中的數據。
c. 示例中輸入了3個商品詳情頁網址,可根據需求更換。支持批量導入,詳情見 從本地文件導入網址教程 。
步驟二、設置滾動
【商品評價】按鈕需向下滾動頁面才會真正加載出來,在八爪魚中也需設置滾動。
進入【打開網頁】設置頁面,點開【頁面加載后】,設置【頁面加載后向下滾動】,滾動方式為【向下滾動一屏】,【滾動次數】為6次,【每次間隔】2秒 並保存。

特別說明:
a. 設置中的滾動次數和時間間隔,請根據采集需求和網頁加載情況進行設置,並非是一成不變的,具體請點擊查看 處理滾動加載數據的網頁教程
步驟三、按差評篩選評論
1、篩選【差評】
向下滾動頁面至評論區域,選中【商品評價】,在操作提示框中點擊【點擊該元素】,頁面默認展示【全部評價】。
本示例篩選【差評】進行采集。選中【差評】,在操作提示框中點擊【點擊該鏈接】,展開差評。

特別說明:
a.【曬圖】、【視頻曬單】、【追評】、【好評】、【中評】、【差評】的篩選方法也是一樣的,需要篩選哪個分類,在八爪魚中做一個點擊哪個分類的步驟。
2、設置【Ajax】加載
此網頁的【差評】按鈕,使用了Ajax加載,因此不能勾選新標簽。
進入【點擊元素1】設置頁面,取消勾選【在新標簽中打開】,並勾上【Ajax加載數據】,【Ajax超時】時間選擇5-7秒,然后保存。

特別說明:
a. 使用了Ajax技術的網頁,一般不勾選【在新標簽中打開】。【Ajax超時】請根據采集需求和網頁加載情況進行設置,並非是一成不變的,詳情點擊查看 Ajax教程 。
步驟四、創建【循環列表】,采集所有評價數據
1、建立【循環列表】
通過以下連續3步,建立【循環列表】,
① 選中頁面上1個評價列表
② 繼續選中頁面上第2個評價列表
③ 在操作提示框中,點擊【采集以下元素文本】
此時將整個評價列表作為整個字段提取下來,如手動將列表中的字段一一提取出來。

特別說明:
a. 經過以上連續3步,【循環-提取數據】創建完成。【循環】中的項,對應着頁面上所有評價列表。此時是將整個評價列表作為整個字段提取下來,如手動將列表中的字段一一提取出來。
b. 為何通過以上3步,可建立【循環-提取數據】?詳情點擊查看 列表數據采集教程 。
2、修改【循環列表】XPath
為了精准采集到所有差評,需修改【循環列表】XPath。
進入【循環列表】設置頁面,修改XPath為 //div[@id='comment-6']/div[position()<11] 並保存。

特別說明:
a. 默認生成的【循環列表】會定位到其他類別的評價中,無法精准采集差評,所以我們需要手動修改XPath。這里需要一定的XPath知識。點擊查看 XPath學習與實例教程 。
b. 除默認的【全部評價】外,采集其他的分類都需相應修改XPath。
【視頻曬單】://div[@id='comment-2']/div[position()<11]
【追評】://div[@id='comment-3']/div[position()<11]
【好評】://div[@id='comment-4']/div[position()<11]
【中評】://div[@id='comment-5']/div[position()<11]
3、提取字段
在網頁中,找到當前評價列表(以紅色框框起來)
選中目標字段,然后在操作提示框中,點擊【采集該元素的文本】。
文本類的字段都可如此提取。示例中我們提取了評價人、評價正文、評價星級、商品參數、評價時間等字段。

特別說明:
a. 一定要在當前評價列表中選擇評價星級,做星級字段的提取,否則星級字段提取與【循環】中的評價列表無法產生聯動,會一直重復采集某一個評價列表中的星級。
b. 如何找到當前評價列表?在【循環列表】中查看當前項(藍色背景),然后點擊【提取列表數據】,網頁中被紅色框框起來的評價列表,就是當前評價列表。

4、編輯字段
在【當前頁面數據預覽】界面,可進行刪除字段、修改字段名等操作。

步驟五、創建循環翻頁,以采集多頁數據
1、建立【循環翻頁】
如果只是采集一頁數據,可跳過此步驟。
如果需要翻頁以采集多頁數據:選擇頁面中的【下一頁】按鈕,在操作提示上單擊【循環點擊下一頁】,創建【循環翻頁】。

特別說明:
a. 創建【循環翻頁】后,八爪魚會自動點擊【下一頁】按鈕進行翻頁,從第1頁,第2頁......直到最后1頁。如果只需采集特定頁的數據,可在八爪魚中設置循環翻頁的次數,詳情點擊查看 翻頁以采集多頁數據教程。
2、修改【循環翻頁】的XPath
默認的【循環翻頁】XPath 無法精准定位到差評的翻頁,需修改【循環翻頁】XPath。
進入【循環翻頁】設置頁面,修改XPath為://div[@id='comment-6']//div[@class="ui-page"]//a[@class="ui-pager-next"] ,然后保存。
同時,調整【點擊翻頁】的【Ajax超時】時間為5秒。

特別說明:
a. 默認生成的【循環翻頁】會定位到其他類別的翻頁按鈕,無法精准采集差評,所以我們需要手動修改XPath。這里需要一定的XPath知識。點擊查看 XPath學習與實例教程 。
b. 除默認的【全部評價】外,采集其他的分類都需相應修改XPath。
【視頻曬單】://div[@id='comment-2']//div[@class="ui-page"]//a[@class="ui-pager-next"]
【追評】://div[@id='comment-3']//div[@class="ui-page"]//a[@class="ui-pager-next"]
【好評】://div[@id='comment-4']//div[@class="ui-page"]//a[@class="ui-pager-next"]
【中評】://div[@id='comment-5']//div[@class="ui-page"]//a[@class="ui-pager-next"]
c. 對於使用了Ajax技術的網頁,八爪魚會自動判斷並設置【Ajax超時】。如果系統自動設置的時間過短,可根據采集需求和網頁加載情況進行相應延長,詳情點擊查看 Ajax教程 。
步驟六、啟動采集
1、單擊【采集】並【啟動本地采集】。啟動后八爪魚開始自動采集數據。

特別說明:
a. 【本地采集】是使用自己的電腦進行采集,【雲采集】是使用八爪魚提供的雲服務器采集,點擊查看 本地采集與雲采集詳解。
2、采集完成后,選擇合適的導出方式來導出數據。支持導出為Excel,CSV,HTML,數據庫等。這里導出為Excel。

示例數據:

