創建CrawlSpider爬蟲簡要步驟


創建CrawlSpider爬蟲簡要步驟:

1. 創建項目文件:

e.g: scrapy startproject douyu (douyu為項目名自定義)

 

2. 進入項目文件:

e.g: cd douyu/  => cd douyu/ (兩次)

 

3. 修改items.py文件中需要獲取的字段:

e.g: vim items.py  =>  name = scrapy.Field()

 

4. 進入爬蟲文件:

e.g: cd spider/

 

5. 創建爬蟲:

e.g: scrapy genspider -t crawl dy 'douyu.com' (dy為爬蟲名,不要和項目名一致;douyu.com為限制爬蟲范圍)

 

6. 修改dy.py

7. 修改管道文件pipelines.py

8. 設置settings.py

e.g: 優先級設置等

9. 運行命令:

e.g: scrapy crawl dy

 

 

注: 默認的Rules規則中,follow為True,如若跟進,可省略不寫;當有callback回調函數時,不寫follow,默認follow為True

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM