使用Scrapyd部署Scrapy爬蟲到遠程服務器上


1、准備好爬蟲程序

2、修改項目配置

  找到項目配置文件scrapy.cnf,將里面注釋掉的url解開來

  本代碼需要連接數據庫,因此需要修改對應的數據庫配置

    其實就是將里面的數據庫地址進行修改,變成遠程數據庫服務器地址,需要保證scrapy服務器能夠連接數據庫服務器

3、部署項目

  在部署項目之前要保證scrapyd服務是開啟狀態。  

  進入本地爬蟲工程的目錄

  執行對應的部署命令

4、調度爬蟲

  調度爬蟲需要使用curl,以下的命令可以在dos窗口對應的項目目錄下面執行,也可以在pycharm中的命令行執行

  4.1、查看遠程服務端上面的爬蟲

    curl http://node100:6800/listprojects.json

  4.2、移除遠程服務端上面部署的爬蟲工程

    curl http://node100:6800/delproject.json -d project=doubanSpider

  4.3、啟動爬蟲

    curl http://node100:6800/schedule.json -d project=doubanSpider -d spider=douban

  4.4、取消爬蟲

    curl http://node100:6800/cancel.json -d project=doubanSpider -d job=000f47e035e911e9a8e90bb05244259f


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM