不用代碼也能輕松抓取網頁數據--只要用了這個工具


@

文章首發:https://mp.weixin.qq.com/s/tJfZx1AcpZ-sJYby5yMo9g

web scraper

簡介:

Web Scraper分為chrome插件和雲服務兩種,雲服務是收費的,chrome插件是免費的,這里說的就是chrome插件這種。
Web Scraper插件,可以讓你以“所見即所得”的方式挑選要提取的網頁數據,形成模版,以后可以隨時執行該模版,並且執行結果可以導出成Csv格式。
web scraper 比較類似selenium和火車頭瀏覽器,不過web scraper功能要少的多,不過更加小巧,學習成本更低

優點

  • 抓取需要登錄的數據較方便,因為這個插件是運行在瀏覽器上的。
  • 只要抓取頻率慢一點,被網站屏蔽的概率較小,也因為是瀏覽器的原因,這就像是真實的用戶訪問一樣。
  • 學習成本低

缺點

  • 好像並不能做驗證碼識別
  • 抓取效率較低,相對於爬蟲程序來說,Web scraper沒法大並發,快速切換IP等,所以大量級的數據抓取用Web Scrpaer不適合,慢慢抓大幾千網頁還是可以。
  • 插件本身是不支持配置定時任務的,雲服務提供了這種功能,不過是收費的,到是可以嘗試使用Python驅動谷歌來進而來操作web scraper的定時

下載地址:

https://www.webscraper.io/

crx文件:jnhgnonknehpejjnehehllkliplmbmhn_0_2_0_18.crx

操作

安裝

谷歌瀏覽器

  1. 打開google瀏覽器,進入應用
  2. 點擊網上應用商店
  3. 輸入框搜索web scraper,點擊添加到chrome
  4. 安裝完成

火狐瀏覽器

  1. 點擊右上角的菜單按鈕,然后點擊進入web開發者
  2. 點擊獲取更多工具
  3. 在搜索框里輸入web scraper進行搜索
  4. 點擊添加到 Firefox

使用說明

  1. 進入谷歌瀏覽器,按F12進入開發者模式
  2. 安裝好web scraper插件之后呢,會在最后出現web scraper標示
  3. 點擊進入web scraper
  4. 首先,我們點擊create new sitemaps -->create sitemaps,來創建一個爬蟲項目
  5. 輸入爬蟲名稱和需要采集的url,點擊創建項目
  6. 點擊Add new selector創建一個選擇器
  7. 配置相關參數
  8. 運行爬蟲,查看數據

關注我獲取更多內容
注:轉載還請注明出處,謝謝_


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM