scrapy主要防止封IP策略 - 碼上歡樂

相關內容簡體繁體

scrapy主要防止封IP策略

本文轉載自查看原文 2019-06-11 13:22 567 python/ scrapy

scrapy如果抓取太頻繁了，就被被封IP，目前有以下主要策略保證不會被封：

策略1：設置download_delay下載延遲，數字設置為5秒，越大越安全
策略2：禁止Cookie，某些網站會通過Cookie識別用戶身份，禁用后使得服務器無法識別爬蟲軌跡
策略3：使用user agent池。也就是每次發送的時候隨機從池中選擇不一樣的瀏覽器頭信息，防止暴露爬蟲身份
策略4：使用IP池，這個需要大量的IP資源，貌似還達不到這個要求
策略5：分布式爬取，這個是針對大型爬蟲系統的，對目前而言我們還用不到。
策略6：偽造x-forward-for，偽裝自身為代理，讓服務器不認為你是爬蟲

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy研究和探索（七）——如何防止被ban大集合策略 nginx deny 封IP iptables命令及封IP scrapy選擇器主要用法 Linux 進程調度的主要策略讓每個模擬器不同IP，游戲防封，支持任何模擬器不同IP，任何游戲不同IP，任何進程不同IP。 java防止http header偽造ip地址爬蟲，如何防止被ban之策略大集合避免網絡爬蟲IP被封的策略阿里雲SLB場景下使用Nginx封用戶真實IP

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM