spider-通過scrapyd網頁管理工具執行scrapy框架

本文轉載自查看原文 2019-05-20 11:31 526 python/ spider

1.首先寫一個scrapy框架爬蟲的項目

scrapy startproject 項目名稱     # 創建項目
cd 項目名稱
scrapy genspider 爬蟲名稱 爬蟲網址（www.xxxx）       #生成一個爬蟲
scrapy crawl 爬蟲名稱             # 啟動爬蟲

2.部署環境

pip install scrapyd    
pip install scrapyd-client

3.在爬蟲項目目錄下輸入命令：scrapyd，已經在本地6800端口運行

4.在爬蟲根目錄執行：scrapyd-deploy,如果提示不是內部命令，需要到python目錄下scripts下新建一個名為scrapyd-deploy.bat的文件，最好復制，其中有必要的空格可能會遺漏導致報錯，路徑參考各自的路徑

@echo off
"C:\Users\lu\AppData\Local\Programs\Python\Python37-32\python.exe" "C:\Users\lu\AppData\Local\Programs\Python\Python37-32\Scripts\scrapyd-deploy" %*

5.在爬蟲項目根目錄下執行：

scrapyd-deploy 爬蟲名稱 -p 爬蟲項目名稱

6.如遇到報錯：Unknown target: 爬蟲名稱，找到該爬蟲項目的scrapy.cfg，作如下修改：

[deploy:abckg]      # 加冒號爬蟲名稱
url = http://localhost:6800/     #  去掉井號
project = ABCkg            # 項目名稱

7.重新執行第5條操作：此時提示ok

8.如果打開上圖中鏈接顯示狀態為error，可以直接在6800端口復制：curl http://localhost:6800/schedule.json -d project=default -d spider=somespider在cmd命令行執行，可以得到狀態：ok

curl http://localhost:6800/schedule.json -d project=項目名稱 -d spider=爬蟲名稱

若遇到提示curl不是內部命令，可以在git bash里執行。

9.此時該項目已經部署到網頁上

10.點擊jobs，此時scrapy項目已經在運行中，點擊右側log可以查看爬蟲日志

至此！完畢！！完美實現通過scrapyd網頁管理工具執行scrapy框架

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 redis的管理工具 KVM管理工具 git管理工具 Cockpit管理工具【工具】-RAP接口管理工具 JIRA缺陷管理工具接口文檔管理工具rap 接口文檔管理工具rap Hadoop 管理工具HUE配置 KVM管理工具 WebVirtMgr