Scrapyd發布爬蟲的工具

本文轉載自查看原文 2018-05-26 00:30 809 爬蟲學習

Scrapyd

Scrapyd是部署和運行Scrapy.spider的應用程序。它使您能夠使用JSON API部署（上傳）您的項目並控制其spider。

Scrapyd-client

Scrapyd-client是一個專門用來發布scrapy爬蟲的工具，安裝該程序之后會自動在python目錄\scripts安裝一個名為scrapyd-deploy的工具

（其實打開該文件，可以發現它是一個類似setup.py的python腳本，所以可以通過python scrapyd-deploy的方式運行）

下載安裝

pip install scrapyd-client
pip install enum-compat
pip install w3lib
pip install scrapyd

安裝完成后檢查

C:\Program Files\Python36\Scripts>dir sc*
 驅動器 C 中的卷是 BOOTCAMP
 卷的序列號是 D471-4F4D

 C:\Program Files\Python36\Scripts 的目錄

2018/05/07  21:20            98,158 scrapy.exe
2018/05/25  21:17             9,901 scrapyd-deploy
2018/05/25  20:37            98,165 scrapyd.exe
               4 個文件        216,128 字節
               0 個目錄 39,937,785,856 可用字節

　scrapyd-deploy內容

運行方法

1.運行scrapyd

C:\>scrapyd
2018-05-25T20:38:52+0800 [-] Loading c:\program files\python36\lib\site-packages
\scrapyd\txapp.py...
2018-05-25T20:38:54+0800 [-] Scrapyd web console available at http://127.0.0.1:6
800/
2018-05-25T20:38:54+0800 [-] Loaded.
2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] twistd 18.4.0
(c:\program files\python36\python.exe 3.6.1) starting up.
2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] reactor class:
 twisted.internet.selectreactor.SelectReactor.
2018-05-25T20:38:54+0800 [-] Site starting on 6800
2018-05-25T20:38:54+0800 [twisted.web.server.Site#info] Starting factory <twiste
d.web.server.Site object at 0x0000000004BB8DA0>
2018-05-25T20:38:54+0800 [Launcher] Scrapyd 1.2.0 started: max_proc=32, runner='
scrapyd.runner'

2.拷貝scrapyd-deploy工具到爬蟲目錄下

 C:\chinaarea 的目錄

2018/05/25  21:19    <DIR>          .
2018/05/25  21:19    <DIR>          ..
2018/05/24  21:23    <DIR>          .idea
2018/05/25  21:19    <DIR>          build
2018/05/25  21:16    <DIR>          chinaarea
2018/05/25  21:19    <DIR>          project.egg-info
2018/05/23  20:38                74 README.md
2018/05/25  21:02               264 scrapy.cfg
2018/05/25 20:37 9,904 scrapyd-deploy 2018/05/25  21:19               266 setup.py
               4 個文件         10,508 字節
               6 個目錄 39,973,642,240 可用字節

3.修改爬蟲的scapy.cfg文件

首先去掉url前的注釋符號，這里url就是你的scrapyd服務器的網址。

其次，deploy:100表示把爬蟲發布到名為100的爬蟲服務器上。

這個名叫target名字可以隨意起，一般情況用在需要同時發布爬蟲到多個目標服務器時，可以通過指定名字的方式發布到指定服務器。

其次，default=ccpmess.settings 中 ccpmess也是可以改的，貌似沒啥用，默認還是用工程名字。

關鍵是scrapyd-deploy 所在目錄，具體其實可以讀下scrapyd-deploy 的代碼。

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]
default = chinaarea.settings

[deploy:100] url = http://localhost:6800/
project = chinaarea

4.查看配置

檢查scrapy配置是否正確。

$python scrapyd-deploy -l
100                  http://localhost:6800/

5.發布爬蟲

scrapyd-deploy <target> -p <project> --version <version>

target就是前面配置文件里deploy后面的的target名字。
project 可以隨意定義，跟爬蟲的工程名字無關。
version自定義版本號，不寫的話默認為當前時間戳。

注意，爬蟲目錄下不要放無關的py文件，放無關的py文件會導致發布失敗，但是當爬蟲發布成功后，會在當前目錄生成一個setup.py文件，可以刪除掉。

C:\chinaarea>python scrapyd-deploy 100 -p chinaarea --version ver20180525
Packing version ver20180525
Deploying to project "chinaarea" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "jingjing-PC", "status": "ok", "project": "chinaarea", "version":
"ver20180525", "spiders": 1}

6.下載安裝curl

下載地址：https://curl.haxx.se/download.html

根據電腦系統下載適合的版本

下載完成后會看到curl.exe文件

設置環境變量

測試配置

C:\curl\bin>curl localhost:6800

<html>
<head><title>Scrapyd</title></head>
<body>
<h1>Scrapyd</h1>
<p>Available projects: <b>chinaarea</b></p>
<ul>
<li><a href="/jobs">Jobs</a></li>

<li><a href="/logs/">Logs</a></li>

7.啟動scrapyd服務器上myproject工程下的myspider爬蟲

C:\curl\bin>curl http://localhost:6800/schedule.json -d project=chinaarea -d spider=airs
{"node_name": "jingjing-PC", "status": "ok", "jobid": "5895b858603611e8b3e160f81
dad89ef"}

8.刪除scrapyd服務器上myproject工程

C:\curl\bin>curl http://127.0.0.1:6800/delproject.json -d project=chinaarea
{"node_name": "jingjing-PC", "status": "ok"}

9.其他操作API

# -*- coding: utf-8 -*-

import requests
import json 

baseUrl ='http://127.0.0.1:6800/'
daemUrl ='http://127.0.0.1:6800/daemonstatus.json'
listproUrl ='http://127.0.0.1:6800/listprojects.json'
listspdUrl ='http://127.0.0.1:6800/listspiders.json?project=%s'
listspdvUrl= 'http://127.0.0.1:6800/listversions.json?project=%s'
listjobUrl ='http://127.0.0.1:6800/listjobs.json?project=%s'
delspdvUrl= 'http://127.0.0.1:6800/delversion.json'

#http://127.0.0.1:6800/daemonstatus.json
#查看scrapyd服務器運行狀態
r= requests.get(daemUrl)
print '1.stats :\n %s \n\n'  %r.text  

#http://127.0.0.1:6800/listprojects.json
#獲取scrapyd服務器上已經發布的工程列表
r= requests.get(listproUrl)
print '1.1.listprojects : [%s]\n\n'  %r.text
if len(json.loads(r.text)["projects"])>0 :
    project = json.loads(r.text)["projects"][0]

#http://127.0.0.1:6800/listspiders.json?project=myproject
#獲取scrapyd服務器上名為myproject的工程下的爬蟲清單
listspd=listspd % project
r= requests.get(listspdUrl)
print '2.listspiders : [%s]\n\n'  %r.text 
if json.loads(r.text).has_key("spiders")>0 :
    spider =json.loads(r.text)["spiders"][0]


#http://127.0.0.1:6800/listversions.json?project=myproject
##獲取scrapyd服務器上名為myproject的工程下的各爬蟲的版本
listspdvUrl=listspdvUrl % project
r = requests.get(listspdvUrl)
print '3.listversions : [%s]\n\n'  %rtext 
if len(json.loads(r.text)["versions"])>0 :
    version = json.loads(r.text)["versions"][0]

#http://127.0.0.1:6800/listjobs.json?project=myproject
#獲取scrapyd服務器上的所有任務清單，包括已結束，正在運行的，准備啟動的。
listjobUrl=listjobUrl % proName
r=requests.get(listjobUrl)
print '4.listjobs : [%s]\n\n'  %r.text 


#schedule.json
#http://127.0.0.1:6800/schedule.json -d project=myproject -d spider=myspider
#啟動scrapyd服務器上myproject工程下的myspider爬蟲，使myspider立刻開始運行，注意必須以post方式
schUrl = baseurl + 'schedule.json'
dictdata ={ "project":project,"spider":spider}
r= reqeusts.post(schUrl, json= dictdata)
print '5.1.delversion : [%s]\n\n'  %r.text 


#http://127.0.0.1:6800/delversion.json -d project=myproject -d version=r99'
#刪除scrapyd服務器上myproject的工程下的版本名為version的爬蟲，注意必須以post方式
delverUrl = baseurl + 'delversion.json'
dictdata={"project":project ,"version": version }
r= reqeusts.post(delverUrl, json= dictdata)
print '6.1.delversion : [%s]\n\n'  %r.text 

#http://127.0.0.1:6800/delproject.json -d project=myproject
#刪除scrapyd服務器上myproject工程，注意該命令會自動刪除該工程下所有的spider，注意必須以post方式
delProUrl = baseurl + 'delproject.json'
dictdata={"project":project  }
r= reqeusts.post(delverUrl, json= dictdata)
print '6.2.delproject : [%s]\n\n'  %r.text

10.總結

1、獲取狀態
http://127.0.0.1:6800/daemonstatus.json
2、獲取項目列表
http://127.0.0.1:6800/listprojects.json
3、獲取項目下已發布的爬蟲列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、獲取項目下已發布的爬蟲版本列表
http://127.0.0.1:6800/listversions.json?project=myproject
5、獲取爬蟲運行狀態
http://127.0.0.1:6800/listjobs.json?project=myproject
6、啟動服務器上某一爬蟲（必須是已發布到服務器的爬蟲）
http://localhost:6800/schedule.json （post方式，data={"project":myproject,"spider":myspider}）
7、刪除某一版本爬蟲
http://127.0.0.1:6800/delversion.json （post方式，data={"project":myproject,"version":myversion}）
8、刪除某一工程，包括該工程下的各版本爬蟲   
http://127.0.0.1:6800/delproject.json（post方式，data={"project":myproject}）

到此，基於scrapyd的爬蟲發布教程就寫完了。

可能有人會說，我直接用scrapy cwal 命令也可以執行爬蟲，個人理解用scrapyd服務器管理爬蟲，至少有以下幾個優勢：

1、可以避免爬蟲源碼被看到。

2、有版本控制。

3、可以遠程啟動、停止、刪除，正是因為這一點，所以scrapyd也是分布式爬蟲的解決方案之一

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於scrapyd爬蟲發布總結 [爬蟲]scrapyd--scrapydweb Scrapyd 項目爬蟲部署 <原創>關於爬蟲的遠程部署之Scrapyd 爬蟲部署 --- scrapyd部署爬蟲 + Gerapy 管理界面 scrapyd+gerapy部署流程使用Scrapyd部署Scrapy爬蟲到遠程服務器上 scrapyd 常用部署命令 & 遠程監控 & 爬蟲腳本騰訊發布了一款可視化爬蟲工具爬蟲部署-3，爬蟲管理平台，Crawlab、Gerapy、Scrapydweb，SpiderKeeper，scrapyd，基於上述平台，構思自己的爬蟲管理平台如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分布式爬蟲項目