scrapy的去重機制

本文轉載自查看原文 2018-10-03 23:55 2210 scrapy

scrapy是通過hashlib算法轉成長度一致的url，然后再通過set集合去重的，有興趣看源碼

去重的中間件在scrapy 的 dupefilters.py文件中：

--> #去重器

RFDupeFilter()

-->有個函數叫

request_seen()
#被scrapy/core/scheduler.py調用

這個是調度器

scheduler.py#文件中有個函數叫enqueue_request()的函數
每來一個url就是通過這個函數來執行的

每次執行之前都會調用到 request_seen(request) 這個方法

這個方法就會生成一個指紋，指紋下面的掉用的就比較復雜了，簡單的說就是要去執行 hashlib.sha1() 這個算法來生成一個固定長度的哈兮值

再然后就是在那個去重器中的

self.fingerprints = set()

就是通過上句代碼執行了set集合來去重了

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy 去重 dont_filter=False Scrapy之dupefilters(去重)以及源碼分析/depth Scrapy框架(持久化,去重,深度控制,cookie) scrapy暫停和重啟，及url去重原理,telenet簡單使用爬蟲基礎6(框架Scrapy中去重源碼與自定義去重) Scrapy各部分運行機制?Xpath為None？多層Response如何編寫？搞定Scrapy的坑排序與去重 Java去重 SQL去重 jquery去重