一.簡介與安裝

　　Gerapy 是一款分布式爬蟲管理框架，支持 Python 3，基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發。

　　特點：

更方便地控制爬蟲運行

更直觀地查看爬蟲狀態

更實時地查看爬取結果

更簡單地實現項目部署

更統一地實現主機管理

更輕松地編寫爬蟲代碼(幾乎沒用,感覺比較雞肋)

　　安裝：

pip install gerapy


#gerapy 判斷是否安裝成功

F:\gerapy>gerapy
Usage:
gerapy init [--folder=<folder>]
gerapy migrate
gerapy createsuperuser
gerapy runserver [<host:port>]

二.使用

gerapy  init

#執行完畢之后，便會在當前目錄下生成一個名字為 gerapy 的文件夾，接着進入該文件夾，可以看到有一個 projects 文件夾



#或者
gerapy init 指定的絕對目錄  

#這樣會在指定的文件夾生成一個gerapy文件夾

　　進入新生成的gerapy文件夾

　　cd 到gerapy目錄

cd gerapy
gerapy migrate

gerapy runserver

　　這要命令必須新生成的gerapy文件夾只用，否則以前創建的項目都看不奧到

http://127.0.0.1:8000

　　就是配置我們scrapyd 遠程服務.（指定遠程服務器的ip和端口等等）

　　需要添加 IP、端口，以及名稱，點擊創建即可完成添加，點擊返回即可看到當前添加的 Scrapyd 服務列表

　　如果想執行爬蟲,就點擊調度.然后運行.
　　前提是: 我們配置的scrapyd中,已經發布了爬蟲.

　　Gerapy 與 scrapyd 有什么關聯嗎?

　　我們僅僅使用scrapyd是可以調用scrapy進行爬蟲. 只是需要使用命令行開啟爬蟲

curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬蟲名

·　　使用Greapy就是為了將使用命令行開啟爬蟲變成 “小手一點”. 我們在gerapy中配置了scrapyd后,不需要使用命令行,可以通過圖形化界面直接開啟爬蟲.

　　　我們就可以把我們寫好的爬蟲文件放在生成的文件夾gerapy下projects內，然后刷新網頁就可以發現項目就在里邊了

　　然后我們點擊部署按鈕就可以進行打包和部署了，描述是自定義的，這個只會在gerapy上顯示，然后會提示我們打包成功，同時左側會顯示打包的結果和打包的名稱。

　　打包成功后我們就可以在進行部署了，如果有多個主機的話，我們就需要選擇部署的主機，點擊后邊部署按鈕，也可以同時批量選擇主機進行部署。

　　然后我們就可以在主機的項目頁面點擊主機，看到爬蟲的運行狀態，並且不用在cmd中輸入命令，通過點擊就可以讓爬蟲

　　運行，停止，並且查看運行狀態。

　　最后，gerapy也支持在其網頁上自建爬蟲項目，具體這里就不介紹了。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬蟲框架整合分布式爬蟲管理平台Crawlab安裝與使用 Crawlab-分布式爬蟲管理系統分布式爬蟲實戰 scrapy-redis分布式爬蟲使用詳解 centos7+docker 安裝和部署crawlab分布式爬蟲平台,並使用docker-compose管理docker 使用Spring Session做分布式會話管理分布式日志管理graylog安裝及使用 Redis實現分布式爬蟲三種分布式爬蟲策略