分布式爬蟲管理平台Crawlab安裝與使用


Why,為什么需要爬蟲管理平台?

以下摘自官方文檔:

  Crawlab主要解決的是大量爬蟲管理困難的問題,例如需要監控上百個網站的參雜scrapyselenium的項目不容易做到同時管理,而且命令行管理的成本非常高,還容易出錯。

Crawlab支持任何語言和任何框架,配合任務調度、任務監控,很容易做到對成規模的爬蟲項目進行有效監控管理。

 

  項目自 2019 年 3 月份上線以來受到爬蟲愛好者們和開發者們的好評,超過一半的使用者表示已經在用 Crawlab 作為公司的爬蟲管理平台。

經過近數月的迭代,陸續上線了 定時任務、數據分析、可配置爬蟲、SDK、消息通知、Scrapy 支持、Git 同步等功能,

將Crawlab打造得更加實用,更加全面,能夠真正幫助用戶解決爬蟲管理困難的問題。

以下是Crawlab的一些頁面:

主頁

爬蟲列表頁

爬蟲文件編輯

定時任務

消息通知

----------------

真香,想起自己以前寫的大大小小的的爬蟲腳本。如果早些使用crawlab來管理說不定還是能發揮余熱的。

抱着對定時任務、消息通知、數據分析等功能的期待。

開始了安裝及使用之旅~

安裝:

系統:阿里雲centos7

這里使用最簡單的安裝方法,docker安裝。

先用docker下載crawlab鏡像:

docker pull tikazyq/crawlab:latest

關於docker常用命令及簡介,這篇文章寫的很全:

https://blog.csdn.net/javahelpyou/article/details/104587242

還需要安裝docker-compose,在安裝了python3 的前提下:

pip3 install docker-compose

安裝后可執行docker-compose ps驗證是否安裝正常。

啟動crawlab:

需要先找到docker-compose.yml文件所在文件夾,shell在根目錄下執行:

find  -name "docker-compose.yml"

轉到該文件夾直接執行:

docker-compose up

即可運行。

在瀏覽器中輸入 http://localhost:8080就可以看到界面。

 如果布置到了公網記得開放8080端口及重設密碼。

 

這里mongodb及redis也是使用docker-compose一同安裝管理。

所以建議您將數據庫持久化,因為否則的話,一旦您的 Docker 容器發生意外導致關閉重啟,您的數據將丟失。

至於數據持久化、mongodb及redis密碼設置、數據庫端口映射。等等修改配置文件docker-compose.yml即可。

可以到官方文檔查看說明:

https://docs.crawlab.cn/Installation/Docker.html

 

使用測試:

以這個網站為例。

http://quotes.toscrape.com/

上面有一些名人名句,需要抓的是句子內容、作者及標簽。

可配置爬蟲(當然也能上傳運行自定義的爬蟲):

使用crawlab生成個可配置爬蟲,即在web界面點幾下就能生成一個爬蟲。

添加爬蟲后可在“配置”這里配置開始url,一些字段xpath及下一頁的xpath

也可到“文件”進一步修改錯漏的地方:

配置好后運行->查看結果

定時爬蟲:

將上面設置的爬蟲設置定時運行。

為了看清楚效用,設置了每分鍾運行一次,它是基於linux下的crontab設置的定時任務

關於crontab的配置可參考:

https://blog.csdn.net/wade3015/article/details/90289751

ok,可以看到有在定時運行,沒毛病~

感謝閱讀,以上~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM