@
文章首發:https://mp.weixin.qq.com/s/tJfZx1AcpZ-sJYby5yMo9g
web scraper
簡介:
Web Scraper
分為chrome插件和雲服務兩種,雲服務是收費的,chrome插件是免費的,這里說的就是chrome插件這種。
Web Scraper
插件,可以讓你以“所見即所得”的方式挑選要提取的網頁數據,形成模版,以后可以隨時執行該模版,並且執行結果可以導出成Csv格式。
web scraper
比較類似selenium和火車頭瀏覽器,不過web scraper功能要少的多,不過更加小巧,學習成本更低
優點
- 抓取需要登錄的數據較方便,因為這個插件是運行在瀏覽器上的。
- 只要抓取頻率慢一點,被網站屏蔽的概率較小,也因為是瀏覽器的原因,這就像是真實的用戶訪問一樣。
- 學習成本低
缺點
- 好像並不能做驗證碼識別
- 抓取效率較低,相對於爬蟲程序來說,Web scraper沒法大並發,快速切換IP等,所以大量級的數據抓取用Web Scrpaer不適合,慢慢抓大幾千網頁還是可以。
- 插件本身是不支持配置定時任務的,雲服務提供了這種功能,不過是收費的,到是可以嘗試使用Python驅動谷歌來進而來操作web scraper的定時
下載地址:
crx文件:jnhgnonknehpejjnehehllkliplmbmhn_0_2_0_18.crx
操作
安裝
谷歌瀏覽器
- 打開google瀏覽器,進入應用
- 點擊網上應用商店
- 輸入框搜索
web scraper
,點擊添加到chrome
- 安裝完成
火狐瀏覽器
- 點擊右上角的菜單按鈕,然后點擊進入web開發者
- 點擊獲取更多工具
- 在搜索框里輸入
web scraper
進行搜索
- 點擊添加到
Firefox
使用說明
- 進入谷歌瀏覽器,按F12進入開發者模式
- 安裝好
web scraper插件
之后呢,會在最后出現web scraper
標示
- 點擊進入
web scraper
- 首先,我們點擊
create new sitemaps
-->create sitemaps
,來創建一個爬蟲項目 - 輸入爬蟲名稱和需要采集的url,點擊創建項目
- 點擊
Add new selector
創建一個選擇器
- 配置相關參數
- 運行爬蟲,查看數據
關注我獲取更多內容
注:轉載還請注明出處,謝謝_