工具介紹

Web Scraper輕量的爬蟲利器。
優點：
不需要學習編程就可以爬取網頁數據，可以節省大量的編碼及調試時間。
依賴環境相當簡單，只需要谷歌瀏覽器和插件即可。

缺點：
只支持文本數據抓取，圖片短視頻等多媒體數據無法批量抓取。
不支持復雜網頁抓取，比如說采取來反爬蟲措施的，復雜的人機交互網頁，Web Scraper 也無能為力，其實這種寫代碼爬取也挺難的。
導出的數據並不是按照爬取的順序展示的，想排序就就要導出 Excel 再進行排序，這一點也很容易克服，大部分數據都是要導出 Excel 再進行數據分析的。

一、下載

下載鏈接: https://pan.baidu.com/s/1_o7ZS34TA-py_q2tyJBWjA?pwd=a74m 提取碼: a74m

二、安裝

Web Scraper 是一個谷歌瀏覽器插件。下載后直接將crx文件拖入谷歌擴展程序，即可自動安裝。

三、使用

參考鏈接：https://blog.csdn.net/somenzz/article/details/113011179
工具的工作原理：Web Scraper是以樹的形式來組織 sitemap 的。
網頁的內容是一棵樹，樹根就是網站的 url，從網站的 url 到我們需要訪問的數據所在的元素（html element）就是從樹根到葉子節點的遍歷的過程。這個過程有簡單的，就是直接一條路就走到葉子節點，也有復雜的，采用遞歸的思想處理頁面刷新情況。
簡單爬取例子：爬取知乎的熱榜數據

1、打開Web Scraper

打開知乎網站，F12顯示開發工具，點擊Web Scraper

2、創建 sitemap 及 selector

1）創建sitemap

點擊Create new sitemap，創建Sitemap，輸入以下信息，點擊Create sitemap 按鈕完成創建。如下圖所示：
Sitemap name：zhihu_hot
Start Url:https://www.zhihu.com/hot

2）創建selector

點擊Add new selector 添加 selector，也就是添加子節點。
ID 這里填寫 category，類型選擇 Element Click，此時會出現兩個選擇器，一個是 selector，代表着要傳遞給 category 的子節點使用的元素，另一個是 Click selector，代表要點擊的元素。為了方便你理解，請先選擇 Click selector，在選擇 selector，填寫完整后點擊按鈕Save selector，完成selector的創建。如下圖所示：

Id:category
Type:Element Click
Selector:div.HotList-list
Click selector:a.HotListNav-item

繼續在 category 下添加 Selector，即 category_e， category_e 接受到的元素就是 category 中的 selector 選擇的元素，即 div.HostList-list,category_e 的配置。
Id:category_e
Type:Element
Selector:section
Parent Selectors:category
如下圖所示：

繼續在 category_e 下面繼續添加三個 Selector，即 hot_num、title、hot_degree,分別如下圖所示：
Id:hot_num
Type:Text
Selector:div.HotItem-rank
Parent Selectors:category_e