網站反爬蟲的原因
- 不遵守規范的爬蟲會影響網站的正常使用
- 網站上的數據是公司的重要資產
- 爬蟲對網站的爬取會造成網站統計數據的污染
常見反爬蟲手段
- 根據 IP 訪問頻率封禁 IP
- 設置賬號登陸時長,賬號訪問過多封禁
- 設置賬號的登錄限制,只有登錄才能展現內容
- 設置賬號登錄的時長,時間一到則自動退出
- 彈出數字驗證碼和圖片確認驗證碼
- 爬蟲訪問次數過多,彈出驗證碼要求輸入
- 對 API 接口的限制
- 每天限制一個登錄賬戶后端 api 接口的調用次數
- 對后台 api 返回信息進行加密處理
反反爬的策略
- 反反爬的總體思想
- 將爬蟲偽裝成自然人的瀏覽行為
- 自然人瀏覽的特點
- 訪問頻率不會非常的高
- 使用的是瀏覽器進行訪問
- 網站設置登錄要求后仍能正常使用
- 可以完成驗證操作
- Scrapy 反反爬功能的實現
- 爬蟲配置 settings.py
- 爬蟲框架中間件
反反爬的手段