Why,為什么需要爬蟲管理平台?
以下摘自官方文檔:
Crawlab主要解決的是大量爬蟲管理困難的問題,例如需要監控上百個網站的參雜scrapy
和selenium
的項目不容易做到同時管理,而且命令行管理的成本非常高,還容易出錯。
Crawlab支持任何語言和任何框架,配合任務調度、任務監控,很容易做到對成規模的爬蟲項目進行有效監控管理。
項目自 2019 年 3 月份上線以來受到爬蟲愛好者們和開發者們的好評,超過一半的使用者表示已經在用 Crawlab 作為公司的爬蟲管理平台。
經過近數月的迭代,陸續上線了 定時任務、數據分析、可配置爬蟲、SDK、消息通知、Scrapy 支持、Git 同步等功能,
將Crawlab打造得更加實用,更加全面,能夠真正幫助用戶解決爬蟲管理困難的問題。
以下是Crawlab的一些頁面:
主頁
爬蟲列表頁
爬蟲文件編輯
定時任務
消息通知
----------------
真香,想起自己以前寫的大大小小的的爬蟲腳本。如果早些使用crawlab來管理說不定還是能發揮余熱的。
抱着對定時任務、消息通知、數據分析等功能的期待。
開始了安裝及使用之旅~
安裝:
系統:阿里雲centos7
這里使用最簡單的安裝方法,docker安裝。
先用docker下載crawlab鏡像:
docker pull tikazyq/crawlab:latest
關於docker常用命令及簡介,這篇文章寫的很全:
https://blog.csdn.net/javahelpyou/article/details/104587242
還需要安裝docker-compose,在安裝了python3 的前提下:
pip3 install docker-compose
安裝后可執行docker-compose ps驗證是否安裝正常。
啟動crawlab:
需要先找到docker-compose.yml文件所在文件夾,shell在根目錄下執行:
find -name "docker-compose.yml"
轉到該文件夾直接執行:
docker-compose up
即可運行。
在瀏覽器中輸入 http://localhost:8080
就可以看到界面。
如果布置到了公網記得開放8080端口及重設密碼。
這里mongodb及redis也是使用docker-compose一同安裝管理。
所以建議您將數據庫持久化,因為否則的話,一旦您的 Docker 容器發生意外導致關閉重啟,您的數據將丟失。
至於數據持久化、mongodb及redis密碼設置、數據庫端口映射。等等修改配置文件docker-compose.yml即可。
可以到官方文檔查看說明:
https://docs.crawlab.cn/Installation/Docker.html
使用測試:
以這個網站為例。
上面有一些名人名句,需要抓的是句子內容、作者及標簽。
可配置爬蟲(當然也能上傳運行自定義的爬蟲):
使用crawlab生成個可配置爬蟲,即在web界面點幾下就能生成一個爬蟲。
添加爬蟲后可在“配置”這里配置開始url,一些字段xpath及下一頁的xpath
也可到“文件”進一步修改錯漏的地方:
配置好后運行->查看結果
定時爬蟲:
將上面設置的爬蟲設置定時運行。
為了看清楚效用,設置了每分鍾運行一次,它是基於linux下的crontab設置的定時任務
關於crontab的配置可參考:
https://blog.csdn.net/wade3015/article/details/90289751
ok,可以看到有在定時運行,沒毛病~
感謝閱讀,以上~