Scrapy命令行基本用法


1.創建一個新項目:

scrapy startproject myproject

 

2.在新項目中創建一個新的spider文件:

scrapy genspider mydomain mydomain.com

mydomain為spider文件名,mydomain.com為爬取網站域名

 

3.全局命令:

startproject
genspider
settings
runspider
shell
fetch
view
version

 

4.只在項目中使用的命令(局部命令):

crawl
check
list
edit
parse
bench

 

5.運行spider文件:

scrapy crawl <spider>

  

6.檢查spider文件有無語法錯誤:

scrapy check

 

7.列出spider路徑下的spider文件:

scrapy list

 

8.編輯spider文件:

scrapy edit <spider>

相當於打開vim模式,實際並不好用,在IDE中編輯更為合適。

 

9.將網頁內容下載下來,然后在終端打印當前返回的內容,相當於 request 和 urllib 方法:

scrapy fetch <url>

 

10.將網頁內容保存下來,並在瀏覽器中打開當前網頁內容,直觀呈現要爬取網頁的內容: 

scrapy view <url>

 

11.打開 scrapy 顯示台,類似ipython,可以用來做測試:

scrapy shell [url]

 

12.輸出格式化內容:

scrapy parse <url> [options]

 

13.返回系統設置信息:

scrapy settings [options]

如:

$ scrapy settings --get BOT_NAME scrapybot

 

14.運行spider:

scrapy runspider <spider_file.py>

 

15.顯示scrapy版本:

scrapy version [-v]

后面加 -v 可以顯示scrapy依賴庫的版本

 

16.測試電腦當前爬取速度性能:

scrapy bench

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM