Scrapyd
Scrapyd是部署和運行Scrapy.spider的應用程序。它使您能夠使用JSON API部署(上傳)您的項目並控制其spider。
Scrapyd-client
Scrapyd-client是一個專門用來發布scrapy爬蟲的工具,安裝該程序之后會自動在python目錄\scripts安裝一個名為scrapyd-deploy的工具
(其實打開該文件,可以發現它是一個類似setup.py的python腳本,所以可以通過python scrapyd-deploy的方式運行)
下載安裝
pip install scrapyd-client pip install enum-compat pip install w3lib
pip install scrapyd
安裝完成后檢查
C:\Program Files\Python36\Scripts>dir sc*
驅動器 C 中的卷是 BOOTCAMP
卷的序列號是 D471-4F4D
C:\Program Files\Python36\Scripts 的目錄
2018/05/07 21:20 98,158 scrapy.exe
2018/05/25 21:17 9,901 scrapyd-deploy
2018/05/25 20:37 98,165 scrapyd.exe
4 個文件 216,128 字節
0 個目錄 39,937,785,856 可用字節
scrapyd-deploy內容
運行方法
1.運行scrapyd
C:\>scrapyd 2018-05-25T20:38:52+0800 [-] Loading c:\program files\python36\lib\site-packages \scrapyd\txapp.py... 2018-05-25T20:38:54+0800 [-] Scrapyd web console available at http://127.0.0.1:6 800/ 2018-05-25T20:38:54+0800 [-] Loaded. 2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] twistd 18.4.0 (c:\program files\python36\python.exe 3.6.1) starting up. 2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] reactor class: twisted.internet.selectreactor.SelectReactor. 2018-05-25T20:38:54+0800 [-] Site starting on 6800 2018-05-25T20:38:54+0800 [twisted.web.server.Site#info] Starting factory <twiste d.web.server.Site object at 0x0000000004BB8DA0> 2018-05-25T20:38:54+0800 [Launcher] Scrapyd 1.2.0 started: max_proc=32, runner=' scrapyd.runner'
2.拷貝scrapyd-deploy工具到爬蟲目錄下
C:\chinaarea 的目錄 2018/05/25 21:19 <DIR> . 2018/05/25 21:19 <DIR> .. 2018/05/24 21:23 <DIR> .idea 2018/05/25 21:19 <DIR> build 2018/05/25 21:16 <DIR> chinaarea 2018/05/25 21:19 <DIR> project.egg-info 2018/05/23 20:38 74 README.md 2018/05/25 21:02 264 scrapy.cfg 2018/05/25 20:37 9,904 scrapyd-deploy 2018/05/25 21:19 266 setup.py 4 個文件 10,508 字節 6 個目錄 39,973,642,240 可用字節
3.修改爬蟲的scapy.cfg文件
首先去掉url前的注釋符號,這里url就是你的scrapyd服務器的網址。
其次,deploy:100表示把爬蟲發布到名為100的爬蟲服務器上。
這個名叫target名字可以隨意起,一般情況用在需要同時發布爬蟲到多個目標服務器時,可以通過指定名字的方式發布到指定服務器。
其次,default=ccpmess.settings 中 ccpmess也是可以改的,貌似沒啥用,默認還是用工程名字。
關鍵是scrapyd-deploy 所在目錄,具體其實可以讀下scrapyd-deploy 的代碼。
# Automatically created by: scrapy startproject # # For more information about the [deploy] section see: # https://scrapyd.readthedocs.io/en/latest/deploy.html [settings] default = chinaarea.settings [deploy:100] url = http://localhost:6800/ project = chinaarea
4.查看配置
檢查scrapy配置是否正確。
$python scrapyd-deploy -l
100 http://localhost:6800/
5.發布爬蟲
scrapyd-deploy <target> -p <project> --version <version>
target就是前面配置文件里deploy后面的的target名字。
project 可以隨意定義,跟爬蟲的工程名字無關。
version自定義版本號,不寫的話默認為當前時間戳。
注意,爬蟲目錄下不要放無關的py文件,放無關的py文件會導致發布失敗,但是當爬蟲發布成功后,會在當前目錄生成一個setup.py文件,可以刪除掉。
C:\chinaarea>python scrapyd-deploy 100 -p chinaarea --version ver20180525 Packing version ver20180525 Deploying to project "chinaarea" in http://localhost:6800/addversion.json Server response (200): {"node_name": "jingjing-PC", "status": "ok", "project": "chinaarea", "version": "ver20180525", "spiders": 1}
6.下載安裝curl
下載地址:https://curl.haxx.se/download.html
根據電腦系統下載適合的版本
下載完成后會看到curl.exe文件
設置環境變量
測試配置
C:\curl\bin>curl localhost:6800 <html> <head><title>Scrapyd</title></head> <body> <h1>Scrapyd</h1> <p>Available projects: <b>chinaarea</b></p> <ul> <li><a href="/jobs">Jobs</a></li> <li><a href="/logs/">Logs</a></li>
7.啟動scrapyd服務器上myproject工程下的myspider爬蟲
C:\curl\bin>curl http://localhost:6800/schedule.json -d project=chinaarea -d spider=airs {"node_name": "jingjing-PC", "status": "ok", "jobid": "5895b858603611e8b3e160f81 dad89ef"}
8.刪除scrapyd服務器上myproject工程
C:\curl\bin>curl http://127.0.0.1:6800/delproject.json -d project=chinaarea {"node_name": "jingjing-PC", "status": "ok"}
9.其他操作API
# -*- coding: utf-8 -*- import requests import json baseUrl ='http://127.0.0.1:6800/' daemUrl ='http://127.0.0.1:6800/daemonstatus.json' listproUrl ='http://127.0.0.1:6800/listprojects.json' listspdUrl ='http://127.0.0.1:6800/listspiders.json?project=%s' listspdvUrl= 'http://127.0.0.1:6800/listversions.json?project=%s' listjobUrl ='http://127.0.0.1:6800/listjobs.json?project=%s' delspdvUrl= 'http://127.0.0.1:6800/delversion.json' #http://127.0.0.1:6800/daemonstatus.json #查看scrapyd服務器運行狀態 r= requests.get(daemUrl) print '1.stats :\n %s \n\n' %r.text #http://127.0.0.1:6800/listprojects.json #獲取scrapyd服務器上已經發布的工程列表 r= requests.get(listproUrl) print '1.1.listprojects : [%s]\n\n' %r.text if len(json.loads(r.text)["projects"])>0 : project = json.loads(r.text)["projects"][0] #http://127.0.0.1:6800/listspiders.json?project=myproject #獲取scrapyd服務器上名為myproject的工程下的爬蟲清單 listspd=listspd % project r= requests.get(listspdUrl) print '2.listspiders : [%s]\n\n' %r.text if json.loads(r.text).has_key("spiders")>0 : spider =json.loads(r.text)["spiders"][0] #http://127.0.0.1:6800/listversions.json?project=myproject ##獲取scrapyd服務器上名為myproject的工程下的各爬蟲的版本 listspdvUrl=listspdvUrl % project r = requests.get(listspdvUrl) print '3.listversions : [%s]\n\n' %rtext if len(json.loads(r.text)["versions"])>0 : version = json.loads(r.text)["versions"][0] #http://127.0.0.1:6800/listjobs.json?project=myproject #獲取scrapyd服務器上的所有任務清單,包括已結束,正在運行的,准備啟動的。 listjobUrl=listjobUrl % proName r=requests.get(listjobUrl) print '4.listjobs : [%s]\n\n' %r.text #schedule.json #http://127.0.0.1:6800/schedule.json -d project=myproject -d spider=myspider #啟動scrapyd服務器上myproject工程下的myspider爬蟲,使myspider立刻開始運行,注意必須以post方式 schUrl = baseurl + 'schedule.json' dictdata ={ "project":project,"spider":spider} r= reqeusts.post(schUrl, json= dictdata) print '5.1.delversion : [%s]\n\n' %r.text #http://127.0.0.1:6800/delversion.json -d project=myproject -d version=r99' #刪除scrapyd服務器上myproject的工程下的版本名為version的爬蟲,注意必須以post方式 delverUrl = baseurl + 'delversion.json' dictdata={"project":project ,"version": version } r= reqeusts.post(delverUrl, json= dictdata) print '6.1.delversion : [%s]\n\n' %r.text #http://127.0.0.1:6800/delproject.json -d project=myproject #刪除scrapyd服務器上myproject工程,注意該命令會自動刪除該工程下所有的spider,注意必須以post方式 delProUrl = baseurl + 'delproject.json' dictdata={"project":project } r= reqeusts.post(delverUrl, json= dictdata) print '6.2.delproject : [%s]\n\n' %r.text
10.總結
1、獲取狀態 http://127.0.0.1:6800/daemonstatus.json 2、獲取項目列表 http://127.0.0.1:6800/listprojects.json 3、獲取項目下已發布的爬蟲列表 http://127.0.0.1:6800/listspiders.json?project=myproject 4、獲取項目下已發布的爬蟲版本列表 http://127.0.0.1:6800/listversions.json?project=myproject 5、獲取爬蟲運行狀態 http://127.0.0.1:6800/listjobs.json?project=myproject 6、啟動服務器上某一爬蟲(必須是已發布到服務器的爬蟲) http://localhost:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider}) 7、刪除某一版本爬蟲 http://127.0.0.1:6800/delversion.json (post方式,data={"project":myproject,"version":myversion}) 8、刪除某一工程,包括該工程下的各版本爬蟲 http://127.0.0.1:6800/delproject.json(post方式,data={"project":myproject})
到此,基於scrapyd的爬蟲發布教程就寫完了。
可能有人會說,我直接用scrapy cwal 命令也可以執行爬蟲,個人理解用scrapyd服務器管理爬蟲,至少有以下幾個優勢:
1、可以避免爬蟲源碼被看到。
2、有版本控制。
3、可以遠程啟動、停止、刪除,正是因為這一點,所以scrapyd也是分布式爬蟲的解決方案之一