工具介紹
Web Scraper輕量的爬蟲利器。
優點:
不需要學習編程就可以爬取網頁數據,可以節省大量的編碼及調試時間。
依賴環境相當簡單,只需要谷歌瀏覽器和插件即可。
缺點:
只支持文本數據抓取,圖片短視頻等多媒體數據無法批量抓取。
不支持復雜網頁抓取,比如說采取來反爬蟲措施的,復雜的人機交互網頁,Web Scraper 也無能為力,其實這種寫代碼爬取也挺難的。
導出的數據並不是按照爬取的順序展示的,想排序就就要導出 Excel 再進行排序,這一點也很容易克服,大部分數據都是要導出 Excel 再進行數據分析的。
一、下載
下載鏈接: https://pan.baidu.com/s/1_o7ZS34TA-py_q2tyJBWjA?pwd=a74m 提取碼: a74m
二、安裝
Web Scraper 是一個谷歌瀏覽器插件。下載后直接將crx文件拖入谷歌擴展程序,即可自動安裝。
三、使用
參考鏈接:https://blog.csdn.net/somenzz/article/details/113011179
工具的工作原理:Web Scraper是以樹的形式來組織 sitemap 的。
網頁的內容是一棵樹,樹根就是網站的 url,從網站的 url 到我們需要訪問的數據所在的元素(html element)就是從樹根到葉子節點的遍歷的過程。這個過程有簡單的,就是直接一條路就走到葉子節點,也有復雜的,采用遞歸的思想處理頁面刷新情況。
簡單爬取例子:爬取知乎的熱榜數據
1、打開Web Scraper
打開知乎網站,F12顯示開發工具,點擊Web Scraper
2、創建 sitemap 及 selector
1)創建sitemap
點擊Create new sitemap,創建Sitemap,輸入以下信息,點擊Create sitemap 按鈕完成創建。如下圖所示:
Sitemap name:zhihu_hot
Start Url:https://www.zhihu.com/hot
2)創建selector
點擊Add new selector 添加 selector,也就是添加子節點。
ID 這里填寫 category,類型選擇 Element Click,此時會出現兩個選擇器,一個是 selector,代表着要傳遞給 category 的子節點使用的元素,另一個是 Click selector,代表要點擊的元素。為了方便你理解,請先選擇 Click selector,在選擇 selector,填寫完整后點擊按鈕Save selector,完成selector的創建。如下圖所示:
Id:category
Type:Element Click
Selector:div.HotList-list
Click selector:a.HotListNav-item
繼續在 category 下添加 Selector,即 category_e, category_e 接受到的元素就是 category 中的 selector 選擇的元素,即 div.HostList-list,category_e 的配置。
Id:category_e
Type:Element
Selector:section
Parent Selectors:category
如下圖所示:
繼續在 category_e 下面繼續添加三個 Selector,即 hot_num、title、hot_degree,分別如下圖所示:
Id:hot_num
Type:Text
Selector:div.HotItem-rank
Parent Selectors:category_e
Id:title
Type:Link
Selector:.HotItem-content a
Parent Selectors:category_e
Id:hot_degree
Type:Text
Selector:div.HotItem-metrics
點擊 Selector graph展示的樹狀圖,如下所示:
到此sitemap 及其 selector 都創建完成。
3、運行 Web Scraper
單擊菜單中的 Scrape 按鈕
然后會讓你設置爬取時的間隔,保持默認即可,如果網速比較慢可以適當延長:
點擊refresh,即可看到抓取的數據,如下圖所示:
數據可以導出到 csv 文件或excel,點擊Export Sitemap,導出文件