scrapyd和scrapydweb使用詳細教程


Ⅰ、首先要搞清楚幾個概念

1、scrapy是什么?

一個爬蟲框架,你可以創建一個scrapy項目

2、scrapyd是什么?

相當於一個組件,能夠將scrapy項目進行遠程部署,調度使用等

因此scrapyd可以看作一個cs(client-server)程序,因此毫無疑問我們需要安裝和配置scrapyd(server)

和連接的scrapy-client(client)

3、scrapydweb是什么?

是一個基於scrapyd的可視化組件,集成並且提供更多可視化功能和更優美的界面

總結:三者如同葫蘆套娃,總共三層

 

II、安裝scrapy和創建一個scrapy項目

這里我就不細說了,很多很好的博客,這里貼一篇

參照:https://www.cnblogs.com/fengf233/p/11208975.html

 

III、安裝scrapyd和scrapyd-client和配置

1、安裝

pip install scrapyd
pip install scrapy-client

安裝完成后,在cmd中啟動命令

scrapyd

在瀏覽器中輸入:http://localhost:6800/,如果出現下面界面則表示啟動成功(不要關閉cmd,后面步驟還需要

image

 

2、配置

①配置scrapy項目

打開scrapy項目,有個scrapy.cfg文件,按如下進行配置

image

②上傳scrapy項目

將你的scrapy-deploy文件復制到與scrapy.cfg文件同一目錄,scrapy-deploy文件位於你python環境下的scripts文件夾中

然后在cmd中進入你的scrapy項目目錄,輸入:

python scrapy-deploy –l
 
        

image

說明已經掃描到項目,接下來就是編譯項目

python scrapyd-deploy souhu -p souhu

image

編譯完成后就是上傳了,上傳輸入下面代碼(默認為啟動狀態)

curl http://localhost:6800/schedule.json -d project=souhu -d spider=souhuspider3

image

③、在server(http://localhost:6800/)進行檢查,在jobs出現列表則表示上傳成功

image

image

 

IV、安裝scrapydweb

(開源地址:https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md

1、安裝

pip install scrapydweb

運行(前提是scrapyd服務器必須處於運行狀態)

scrapyweb

如果出現下面可視化界面,表示安裝成功

image

 

注意:如果出現6801端口無法連接,這個是因為你沒有配置集群環境,不用擔心

image

 

2、配置

(基本上使用默認的就行,根據需要配置)

配置文件在你當前啟動scrapydweb路徑下,scrapydweb_settings_v10.py,只有兩處需要配置。

①第一處就是username和password,如果是遠程的服務器的話,建議開啟認證

image

②第二處是項目路徑(這里是scrapydweb比較方便的地方,不用事先將項目先上傳到scrapyd服務器,scrapydweb能夠幫我們上傳)

image

 

3、重啟並開始管理

①重啟

scrapydweb

②開始可視化管理

image


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM