gerapy的初步使用(管理分布式爬蟲)


一.簡介與安裝

  Gerapy 是一款分布式爬蟲管理框架,支持 Python 3,基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發。

  特點:

更方便地控制爬蟲運行

更直觀地查看爬蟲狀態

更實時地查看爬取結果

更簡單地實現項目部署

更統一地實現主機管理

更輕松地編寫爬蟲代碼(幾乎沒用,感覺比較雞肋)

  安裝:

pip install gerapy


#gerapy 判斷是否安裝成功

F:\gerapy>gerapy
Usage:
gerapy init [--folder=<folder>]
gerapy migrate
gerapy createsuperuser
gerapy runserver [<host:port>]

 

 

二.使用

  1.初始化項目

gerapy  init

#執行完畢之后,便會在當前目錄下生成一個名字為 gerapy 的文件夾,接着進入該文件夾,可以看到有一個 projects 文件夾



#或者
gerapy init 指定的絕對目錄

#這樣會在指定的文件夾生成一個gerapy文件夾

  2.初始化數據庫

  進入新生成的gerapy文件夾

  cd 到gerapy目錄

cd gerapy
gerapy migrate

  3.運行gerapy服務

gerapy runserver

  這要命令必須新生成的gerapy文件夾只用,否則以前創建的項目都看不奧到

  4.訪問gerapy界面

http://127.0.0.1:8000

  

 

三.gerapy管理界面的使用

  1.部署主機

  就是配置我們scrapyd 遠程服務.(指定遠程服務器的ip和端口等等)

  需要添加 IP、端口,以及名稱,點擊創建即可完成添加,點擊返回即可看到當前添加的 Scrapyd 服務列表

  

  如果想執行爬蟲,就點擊調度.然后運行. 
  前提是: 我們配置的scrapyd中,已經發布了 爬蟲.

  

    

  Gerapy 與 scrapyd 有什么關聯嗎?

  我們僅僅使用scrapyd是可以調用scrapy進行爬蟲. 只是 需要使用命令行開啟爬蟲

curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬蟲名

·  使用Greapy就是為了將使用命令行開啟爬蟲變成 “小手一點”. 我們在gerapy中配置了scrapyd后,不需要使用命令行,可以通過圖形化界面直接開啟爬蟲.

  2.部署項目

   我們就可以把我們寫好的爬蟲文件放在生成的文件夾gerapy下projects內,然后刷新網頁就可以發現項目就在里邊了

    

    

    

  然后我們點擊部署按鈕就可以進行打包和部署了,描述是自定義的,這個只會在gerapy上顯示,然后會提示我們打包成功,同時左側會顯示打包的結果和打包的名稱。

  

  

  

  打包成功后我們就可以在進行部署了,如果有多個主機的話,我們就需要選擇部署的主機,點擊后邊部署按鈕,也可以同時批量選擇主機進行部署。

   

  然后我們就可以在主機的項目頁面點擊主機,看到爬蟲的運行狀態,並且不用在cmd中輸入命令,通過點擊就可以讓爬蟲

  運行,停止,並且查看運行狀態。

  

  最后,gerapy也支持在其網頁上自建爬蟲項目,具體這里就不介紹了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM