scrapy框架結構圖:

組成部分介紹:

Scrapy Engine：
負責組件之間數據的流轉，當某個動作發生時觸發事件
Scheduler：
接收requests，並把他們入隊，以便后續的調度
Downloader：
負責抓取網頁，並傳送給引擎，之后抓取結果將傳給spider
Spiders：
用戶編寫的可定制化的部分，負責解析response，產生items和URL
Item Pipeline：
負責處理item，典型的用途：清洗、驗證、持久化
Downloader middlewares：
位於引擎和下載器之間的一個鈎子，處理傳送到下載器的requests和傳送到引擎的response(若需要在Requests到達Downloader之前或者是responses到達spiders之前做一些預處理，可以使用該中間件來完成)
Spider middlewares：
位於引擎和抓取器之間的一個鈎子，處理抓取器的輸入和輸出
(在spiders產生的Items到達Item Pipeline之前做一些預處理或response到達spider之前做一些處理)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深入理解PHP原理 HDFS原理深入理解 MapReduce原理深入理解(一) 深入理解Vuex 框架深入理解xLua熱更新原理深入理解MySQL索引底層原理深入理解Babel原理及其使用深入理解 Spring 事務原理內存系列二：深入理解硬件原理深入理解 Spring 事務原理【轉】