今日概要
- 日志等級
- 請求傳參
- 如何提高scrapy的爬取效率
今日詳情
一.Scrapy的日志等級
- 在使用scrapy crawl spiderFileName運行程序時,在終端里打印輸出的就是scrapy的日志信息。
- 日志信息的種類:
ERROR : 一般錯誤
WARNING : 警告
INFO : 一般的信息
DEBUG : 調試信息
- 設置日志信息指定輸出:
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日志信息種類’即可。
LOG_FILE = 'log.txt'則表示將日志信息寫入到指定文件中進行存儲。
二.請求傳參
- 在某些情況下,我們爬取的數據不在同一個頁面中,例如,我們爬取一個電影網站,電影的名稱,評分在一級頁面,而要爬取的其他電影詳情在其二級子頁面中。這時我們就需要用到請求傳參。
- 案例展示:爬取www.id97.com電影網,將一級頁面中的電影名稱,類型,評分一級二級頁面中的上映時間,導演,片長進行爬取。
爬蟲文件:
items文件:
管道文件:
三.如何提高scrapy的爬取效率
測試案例:爬取校花網校花圖片 www.521609.com
配置文件: