spider-通過scrapyd網頁管理工具執行scrapy框架


1.首先寫一個scrapy框架爬蟲的項目

scrapy startproject 項目名稱     # 創建項目
cd 項目名稱
scrapy genspider 爬蟲名稱 爬蟲網址(www.xxxx)       #生成一個爬蟲
scrapy crawl 爬蟲名稱             # 啟動爬蟲

2.部署環境

pip install scrapyd    
pip install scrapyd-client 

3.在爬蟲項目目錄下輸入命令:scrapyd,已經在本地6800端口運行

 

 4.在爬蟲根目錄執行:scrapyd-deploy,如果提示不是內部命令,需要到python目錄下scripts下新建一個名為scrapyd-deploy.bat的文件,最好復制,其中有必要的空格可能會遺漏導致報錯,路徑參考各自的路徑

@echo off
"C:\Users\lu\AppData\Local\Programs\Python\Python37-32\python.exe" "C:\Users\lu\AppData\Local\Programs\Python\Python37-32\Scripts\scrapyd-deploy" %*

5.在爬蟲項目根目錄下執行:

scrapyd-deploy 爬蟲名稱 -p 爬蟲項目名稱

6.如遇到報錯:Unknown target: 爬蟲名稱,找到該爬蟲項目的scrapy.cfg,作如下修改:

[deploy:abckg]      # 加冒號爬蟲名稱
url = http://localhost:6800/     #  去掉井號
project = ABCkg            # 項目名稱

7.重新執行第5條操作:此時提示ok

8.如果打開上圖中鏈接顯示狀態為error,可以直接在6800端口復制:curl http://localhost:6800/schedule.json -d project=default -d spider=somespider在cmd命令行執行,可以得到狀態:ok

curl http://localhost:6800/schedule.json -d project=項目名稱 -d spider=爬蟲名稱

    若遇到提示curl不是內部命令,可以在git bash里執行。

9.此時該項目已經部署到網頁上

10.點擊jobs,此時scrapy項目已經在運行中,點擊右側log可以查看爬蟲日志

 

至此! 完畢!!完美實現通過scrapyd網頁管理工具執行scrapy框架

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM