一.簡介與安裝
Gerapy 是一款分布式爬蟲管理框架,支持 Python 3,基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發。
特點:
更方便地控制爬蟲運行
更直觀地查看爬蟲狀態
更實時地查看爬取結果
更簡單地實現項目部署
更統一地實現主機管理
更輕松地編寫爬蟲代碼(幾乎沒用,感覺比較雞肋)
安裝:
pip install gerapy
#gerapy 判斷是否安裝成功
F:\gerapy>gerapy
Usage:
gerapy init [--folder=<folder>]
gerapy migrate
gerapy createsuperuser
gerapy runserver [<host:port>]
二.使用
1.初始化項目
gerapy init
#執行完畢之后,便會在當前目錄下生成一個名字為 gerapy 的文件夾,接着進入該文件夾,可以看到有一個 projects 文件夾
#或者
gerapy init 指定的絕對目錄
#這樣會在指定的文件夾生成一個gerapy文件夾
2.初始化數據庫
進入新生成的gerapy文件夾
cd 到gerapy目錄
cd gerapy
gerapy migrate
3.運行gerapy服務
gerapy runserver
這要命令必須新生成的gerapy文件夾只用,否則以前創建的項目都看不奧到
4.訪問gerapy界面
http://127.0.0.1:8000
三.gerapy管理界面的使用
1.部署主機
就是配置我們scrapyd 遠程服務.(指定遠程服務器的ip和端口等等)
需要添加 IP、端口,以及名稱,點擊創建即可完成添加,點擊返回即可看到當前添加的 Scrapyd 服務列表
如果想執行爬蟲,就點擊調度.然后運行.
前提是: 我們配置的scrapyd中,已經發布了 爬蟲.
Gerapy 與 scrapyd 有什么關聯嗎?
我們僅僅使用scrapyd是可以調用scrapy進行爬蟲. 只是 需要使用命令行開啟爬蟲
curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬蟲名
· 使用Greapy就是為了將使用命令行開啟爬蟲變成 “小手一點”. 我們在gerapy中配置了scrapyd后,不需要使用命令行,可以通過圖形化界面直接開啟爬蟲.
2.部署項目
我們就可以把我們寫好的爬蟲文件放在生成的文件夾gerapy下projects內,然后刷新網頁就可以發現項目就在里邊了
然后我們點擊部署按鈕就可以進行打包和部署了,描述是自定義的,這個只會在gerapy上顯示,然后會提示我們打包成功,同時左側會顯示打包的結果和打包的名稱。
打包成功后我們就可以在進行部署了,如果有多個主機的話,我們就需要選擇部署的主機,點擊后邊部署按鈕,也可以同時批量選擇主機進行部署。
然后我們就可以在主機的項目頁面點擊主機,看到爬蟲的運行狀態,並且不用在cmd中輸入命令,通過點擊就可以讓爬蟲
運行,停止,並且查看運行狀態。
最后,gerapy也支持在其網頁上自建爬蟲項目,具體這里就不介紹了。