python3爬蟲--反爬蟲應對機制
內容來源於:
前言:
反爬蟲更多是一種攻防戰,針對網站的反爬蟲處理來采取對應的應對機制,一般需要考慮以下方面:
①訪問終端限制:這種可通過偽造動態的UA實現;
②訪問次數限制:網站一般通過cookie/IP定位,可通過禁用cookie,或使用cookie池/IP池來反制;
③訪問時間限制:延遲請求應對;
④盜鏈問題:通俗講就是,某個網頁的請求是有跡可循的,比如知乎的問題回答詳情頁,正常用戶行為必然是先進入問題頁,在進入回答詳情頁,有嚴格的請求順序,如果之間跳過前面請求頁面就有可能被判定為到了,通過偽造請求頭可以解決這個問題;
內容:
cookie池的實現及使用
IP池的實現及使用
