主要摘抄自https://www.cnblogs.com/haoabcd2010/p/10552641.html
selenium + chrome
很多難以采集的網站都使用selenium爬取,但是后來發現selenium有特征值,會被檢測出來,今天來小結一下反反爬方案
測試網站 https://intoli.com/blog/not-possible-to-block-chrome-headless/chrome-headless-test.html 全綠好像代表沒被檢測出
中間人修改js
網上很多都是這種博客,不知道靠不靠譜
pyppeteer
這種python的異步請求庫,似乎極好的解決了
簡書博客 https://www.jianshu.com/p/4dd2737a3048
開發者模式
似乎使用開發者模式可以避免被檢測,還需要測試,拼夕夕貌似給繞過去了hhh
[python+selenium代碼]
options = webdriver.ChromeOptions() options.add_experimental_option('excludeSwitches', ['enable-automation']) driver = webdriver.Chrome(options=option)
打開 chrome 遠程調試模式 隱藏 selenium 指紋信息
在 cmd 下輸入
chrome.exe --remote-debugging-port=9222 --user-data-dir="絕對路徑"
然后添加 chrome_options.add_experimental_option('debuggerAddress','127.0.0.1:9222')
補充:最后感覺參考這里靠譜https://www.cnblogs.com/bgmc/p/12154484.html
參考:https://www.cnblogs.com/haoabcd2010/p/10552641.html
https://www.v2ex.com/amp/t/588946
