scrapy 命令行基本用法


1.創建一個新項目:

scrapy startproject myproject

2.在新項目中創建一個新的spider文件:

scrapy genspider mydomain mydomain.com

mydomain為spider文件名,mydomain.com為爬取網站域名

3.全局命令:

復制代碼
startproject
genspider
settings
runspider
shell
fetch
view
version
復制代碼

4.只在項目中使用的命令(局部命令):

復制代碼
crawl
check
list
edit
parse
bench
復制代碼

5.運行spider文件:

scrapy crawl <spider>

5.1 運行spider文件 不顯示日志

scrapy crawl <spider> --nolog

6.檢查spider文件有無語法錯誤:

scrapy check

7.列出spider路徑下的spider文件:

scrapy list

8.編輯spider文件:

scrapy edit <spider>

相當於打開vim模式,實際並不好用,在IDE中編輯更為合適。

9.將網頁內容下載下來,然后在終端打印當前返回的內容,相當於 request 和 urllib 方法:

scrapy fetch <url>

10.將網頁內容保存下來,並在瀏覽器中打開當前網頁內容,直觀呈現要爬取網頁的內容: 

scrapy view <url>

11.打開 scrapy 顯示台,類似ipython,可以用來做測試:

scrapy shell [url]

12.輸出格式化內容:

scrapy parse <url> [options]

13.返回系統設置信息:

scrapy settings [options]

如:

$ scrapy settings --get BOT_NAME scrapybot

 14.運行spider:

scrapy runspider <spider_file.py>

15.顯示scrapy版本:

scrapy version [-v]

后面加 -v 可以顯示scrapy依賴庫的版本

16.測試電腦當前爬取速度性能:

scrapy bench

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM