scrapy執行流程

本文轉載自查看原文 2018-07-03 19:39 803 爬蟲

整體流程

- 引擎找到要執行的爬蟲，並執行爬蟲的 start_requests 方法，並的到一個 迭代器。
- 迭代器循環時會獲取Request對象，而request對象中封裝了要訪問的URL和回調函數。
- 將所有的request對象(任務)放到調度器中，用於以后被下載器下載。

- 下載器去調度器中獲取要下載任務（就是Request對象），下載完成后執行回調函數。

- 回到spider的回調函數中，
       yield Request()
       yield Item()

具體流程

1. scrapy crawl chouti --nolog
	
2. 找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置並實例化調度器對象
	- 執行Scheduler.from_crawler
	- 執行Scheduler.from_settings
		- 讀取配置文件：
			SCHEDULER_PERSIST			 # 是否在關閉時候保留原來的調度器和去重記錄，True=保留，False=清空
			SCHEDULER_FLUSH_ON_START     # 是否在開始之前清空 調度器和去重記錄，True=清空，False=不清空
			SCHEDULER_IDLE_BEFORE_CLOSE  # 去調度器中獲取數據時，如果為空，最多等待時間（最后沒數據，未獲取到）。
		- 讀取配置文件：	
			SCHEDULER_QUEUE_KEY			 # %(spider)s:requests
			SCHEDULER_QUEUE_CLASS		 # scrapy_redis.queue.FifoQueue
			SCHEDULER_DUPEFILTER_KEY     # '%(spider)s:dupefilter'
			DUPEFILTER_CLASS			 # 'scrapy_redis.dupefilter.RFPDupeFilter'
			SCHEDULER_SERIALIZER		 # "scrapy_redis.picklecompat"

		- 讀取配置文件：
			REDIS_HOST = '140.143.227.206'                            # 主機名
			REDIS_PORT = 8888                                   # 端口
			REDIS_PARAMS  = {'password':'beta'}                                  # Redis連接參數             默認：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）
			REDIS_ENCODING = "utf-8"      
	- 示例Scheduler對象
	
3. 爬蟲開始執行起始URL
	- 調用 scheduler.enqueue_requests()
		def enqueue_request(self, request):
			# 請求是否需要過濾？
			# 去重規則中是否已經有？（是否已經訪問過，如果未訪問添加到去重記錄中。）
			if not request.dont_filter and self.df.request_seen(request):
				self.df.log(request, self.spider)
				# 已經訪問過就不要再訪問了
				return False
			
			if self.stats:
				self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
			# print('未訪問過，添加到調度器', request)
			self.queue.push(request)
			return True
	
4. 下載器去調度器中獲取任務，去下載
	
	- 調用 scheduler.next_requests()
		def next_request(self):
			block_pop_timeout = self.idle_before_close
			request = self.queue.pop(block_pop_timeout)
			if request and self.stats:
				self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
			return request

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MVC執行流程 MySQL之執行流程 jvm執行流程 springMVC執行流程 SpringMVC執行流程 MR執行流程 SpringMVC的執行流程 SpringMVC執行流程 yii執行流程 ssm執行流程