網站反爬蟲的原因和反反爬的手段


網站反爬蟲的原因

  1.  不遵守規范的爬蟲會影響網站的正常使用
  2.  網站上的數據是公司的重要資產
  3.  爬蟲對網站的爬取會造成網站統計數據的污染

常見反爬蟲手段

  1.  根據 IP 訪問頻率封禁  IP
  2.  設置賬號登陸時長,賬號訪問過多封禁
    •  設置賬號的登錄限制,只有登錄才能展現內容
    •  設置賬號登錄的時長,時間一到則自動退出
  3.  彈出數字驗證碼和圖片確認驗證碼
    •  爬蟲訪問次數過多,彈出驗證碼要求輸入
  4.  對 API 接口的限制
    •  每天限制一個登錄賬戶后端 api 接口的調用次數
    •  對后台 api 返回信息進行加密處理

反反爬的策略

  1.  反反爬的總體思想
    •  將爬蟲偽裝成自然人的瀏覽行為
  2.  自然人瀏覽的特點
    •  訪問頻率不會非常的高
    •  使用的是瀏覽器進行訪問
    •  網站設置登錄要求后仍能正常使用
    •  可以完成驗證操作
  3.  Scrapy 反反爬功能的實現
    •  爬蟲配置 settings.py
    •  爬蟲框架中間件

反反爬的手段

  1.  模擬自然人訪問頻率
    •  配置 settings.py 控制爬蟲爬取行為
    • 配置 默認值 說明
      DOWNLOAD_DELAY 0

      單位秒

      爬取間隔時間為(0.5~1.5)*DOWNLOAD_DELAY

      CONCURRENT_REQUESTS 16 Scrapy downloader 並發請求的最大值
      CONCURRENT_REQUESTS_PER_DOMAIN 16 對單個網站進行並發請求的最大值
      CONCURRENT_REQUESTS_PER_IP 0 對單個 IP 進行並發請求的最大值
  2.  設置代理 IP
  3.  設置隨機 ua 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM