python爬蟲常用之Scrapy 中間件

本文轉載自查看原文 2018-03-23 14:46 5392 筆記

在scrapy運行的整個過程中,對scrapy框架運行的某些步驟做一些適配自己項目的動作.

　　例如scrapy內置的HttpErrorMiddleware,可以在http請求出錯時做一些處理.

配置settings.py.詳見scrapy文檔 https://doc.scrapy.org

　　scrapy的中間件理論上有三種(Schduler Middleware,Spider Middleware,Downloader Middleware),在應用上一般有以下兩種

主要功能是在爬蟲運行過程中進行一些處理.

主要功能在請求到網頁后,頁面被下載時進行一些處理.

- process_spider_input 接收一個response對象並處理,

位置是Downloader-->process_spider_input-->Spiders(Downloader和Spiders是scrapy官方結構圖中的組件)

- process_spider_exception spider出現的異常時被調用

- process_spider_output 當Spider處理response返回result時,該方法被調用

- process_start_requests 當spider發出請求時,被調用

　　位置是Spiders-->process_start_requests-->Scrapy Engine(Scrapy Engine是scrapy官方結構圖中的組件)

　　 - process_request request通過下載中間件時，該方法被調用

　　 - process_response 下載結果經過中間件時被此方法處理

　　 - process_exception 下載過程中出現異常時被調用

編寫中間件時,需要思考要實現的功能最適合在那個過程處理,就編寫哪個方法.

中間件可以用來處理請求,處理結果或者結合信號協調一些方法的使用等.也可以在原有的爬蟲上添加適應項目的其他功能,這一點在擴展中編寫也可以達到目的,實際上擴展更加去耦合化,推薦使用擴展.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy 爬蟲中間件 httperror中間件 Scrapy之下載中間件與爬蟲中間件 scrapy 爬蟲中間件-offsite和refer中間件爬蟲（十四）：scrapy下載中間件 python - scrapy 爬蟲框架 ( 起始url的實現，深度和優先級，下載中間件 ) 爬蟲scrapy組件請求傳參,post請求,中間件 Scrapy代理和中間件 scrapy之中間件常用的中間件 Python爬蟲從入門到放棄（二十三）之 Scrapy的中間件Downloader Middleware實現User-Agent隨機切換