Ⅰ、首先要搞清楚幾個概念
1、scrapy是什么?
一個爬蟲框架,你可以創建一個scrapy項目
2、scrapyd是什么?
相當於一個組件,能夠將scrapy項目進行遠程部署,調度使用等
因此scrapyd可以看作一個cs(client-server)程序,因此毫無疑問我們需要安裝和配置scrapyd(server)
和連接的scrapy-client(client)
3、scrapydweb是什么?
是一個基於scrapyd的可視化組件,集成並且提供更多可視化功能和更優美的界面
總結:三者如同葫蘆套娃,總共三層
II、安裝scrapy和創建一個scrapy項目
這里我就不細說了,很多很好的博客,這里貼一篇
參照:https://www.cnblogs.com/fengf233/p/11208975.html
III、安裝scrapyd和scrapyd-client和配置
1、安裝
pip install scrapyd
pip install scrapy-client
安裝完成后,在cmd中啟動命令
scrapyd
在瀏覽器中輸入:http://localhost:6800/,如果出現下面界面則表示啟動成功(不要關閉cmd,后面步驟還需要)
2、配置
①配置scrapy項目
打開scrapy項目,有個scrapy.cfg文件,按如下進行配置
②上傳scrapy項目
將你的scrapy-deploy文件復制到與scrapy.cfg文件同一目錄,scrapy-deploy文件位於你python環境下的scripts文件夾中
然后在cmd中進入你的scrapy項目目錄,輸入:
python scrapy-deploy –l
說明已經掃描到項目,接下來就是編譯項目
python scrapyd-deploy souhu -p souhu
編譯完成后就是上傳了,上傳輸入下面代碼(默認為啟動狀態)
curl http://localhost:6800/schedule.json -d project=souhu -d spider=souhuspider3
③、在server(http://localhost:6800/)進行檢查,在jobs出現列表則表示上傳成功
IV、安裝scrapydweb
(開源地址:https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md)
1、安裝
pip install scrapydweb
運行(前提是scrapyd服務器必須處於運行狀態)
scrapyweb
如果出現下面可視化界面,表示安裝成功
注意:如果出現6801端口無法連接,這個是因為你沒有配置集群環境,不用擔心
2、配置
(基本上使用默認的就行,根據需要配置)
配置文件在你當前啟動scrapydweb路徑下,scrapydweb_settings_v10.py,只有兩處需要配置。
①第一處就是username和password,如果是遠程的服務器的話,建議開啟認證
②第二處是項目路徑(這里是scrapydweb比較方便的地方,不用事先將項目先上傳到scrapyd服務器,scrapydweb能夠幫我們上傳)
3、重啟並開始管理
①重啟
scrapydweb
②開始可視化管理