1.創建一個新項目:
scrapy startproject myproject
2.在新項目中創建一個新的spider文件:
scrapy genspider mydomain mydomain.com
mydomain為spider文件名,mydomain.com為爬取網站域名
3.全局命令:
startproject
genspider
settings
runspider
shell
fetch
view
version
4.只在項目中使用的命令(局部命令):
crawl
check
list
edit
parse
bench
5.運行spider文件:
scrapy crawl <spider>
5.1 運行spider文件 不顯示日志
scrapy crawl <spider> --nolog
6.檢查spider文件有無語法錯誤:
scrapy check
7.列出spider路徑下的spider文件:
scrapy list
8.編輯spider文件:
scrapy edit <spider>
相當於打開vim模式,實際並不好用,在IDE中編輯更為合適。
9.將網頁內容下載下來,然后在終端打印當前返回的內容,相當於 request 和 urllib 方法:
scrapy fetch <url>
10.將網頁內容保存下來,並在瀏覽器中打開當前網頁內容,直觀呈現要爬取網頁的內容:
scrapy view <url>
11.打開 scrapy 顯示台,類似ipython,可以用來做測試:
scrapy shell [url]
12.輸出格式化內容:
scrapy parse <url> [options]
13.返回系統設置信息:
scrapy settings [options]
如:
$ scrapy settings --get BOT_NAME scrapybot
14.運行spider:
scrapy runspider <spider_file.py>
15.顯示scrapy版本:
scrapy version [-v]
后面加 -v 可以顯示scrapy依賴庫的版本
16.測試電腦當前爬取速度性能:
scrapy bench