selenium執行js
優點:直接調用瀏覽器的環境
障礙:繞過selenium監測
原理:
# 執行js代碼
bro.execute_script('js代碼')
常見的selenium監測手段
正常登錄 window.navigator.webdriver == undefined
自動化的 window.navigator.webdriver == true
除此之外,還有一些其它的標志性字符串(不同的瀏覽器可能會有所不同),常見的特征串如下所示:
webdriver
__driver_evaluate
__webdriver_evaluate
__selenium_evaluate
__fxdriver_evaluate
__driver_unwrapped
__webdriver_unwrapped
__selenium_unwrapped
__fxdriver_unwrapped
_Selenium_IDE_Recorder
_selenium
calledSelenium
_WEBDRIVER_ELEM_CACHE
ChromeDriverw
driver-evaluate
webdriver-evaluate
selenium-evaluate
webdriverCommand
webdriver-evaluate-response
__webdriverFunc
__webdriver_script_fn
__$webdriverAsyncExecutor
__lastWatirAlert
__lastWatirConfirm
__lastWatirPrompt
$chrome_asyncScriptInfo
$cdc_asdjflasutopfhvcZLmcfl_
了解了這個特點之后,就可以在瀏覽器客戶端JS中通過檢測這些特征串來判斷當前是否使用了selenium,並將檢測結果附加到后續請求之中,這樣服務端就能識別並攔截后續的請求。
常用繞過selenium監測1
正常登錄 window.navigator.webdriver == undefined
自動化的 window.navigator.webdriver == true
from selenium import webdriver
options = webdriver.ChromeOptions()
# 此步驟很重要,設置為開發者模式,防止被各大網站識別出來使用了Selenium
options.add_experimental_option('excludeSwitches', ['enable-automation'])
#停止加載圖片
options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
browser = webdriver.Chrome(options=options)
browser.get('https://www.taobao.com/')
常用繞過selenium監測2
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('debuggerAddress','127.0.0.1:9222')
browser=webdriver.Chrome(executable_path=r'C:\Users\TR\AppData\Local\Google\Chrome
\Application\chromedriver.exe',chrome_options=chrome_options)
browser.get('http://www.zhihu.com')
終端輸入如下指令:chrome.exe --remote-debugging-port=9222 --user-data-dir=“D:\cdsf”(需要谷歌驅動在系統環境變量下,然后再運行程序)
remote-debugging-port是你代碼中指定的端口debuggerAddress;executable_path是你谷歌驅動位置;user-data-dir隨便指定一個目錄就行
常用繞過selenium監測3
1.使用chrome的遠程調試模式結合selenium來遙控chrome進行抓取,這樣不會攜帶指紋信息
步驟:
- 使用調試模式手工啟動chrome,進入chrome的安裝路徑,例如chrome裝在 C:\program\google\chrome.exe下
- 進入chrome安裝路徑
- 執行命令:
#注意端口不要被占用,防火牆要關閉,user-data-dir用來指明配置文件的路徑
chrome.exe --remote-debugging-port=9222 --user-data-dir="指向任意空文件夾"
2.啟動完·之后新建python文件
運行代碼:
import requests
from selenium import webdriver
chrome_options = "C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe"
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('debuggerAddress','10.8.13.95:9222')
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get("https://www.zhihu.com/signup?next=%2F")
# chrome.exe --remote-debugging-port=9222 --user-data-dir="D:\moni"
這樣監測的就不是selenium模擬了
常用繞過selenium監測4
def selenium(js):
option = webdriver.ChromeOptions()
# option.add_argument('--headless')
option.add_experimental_option('useAutomationExtension', False)
option.add_experimental_option('excludeSwitches', ['enable-automation'])
bro = webdriver.Chrome(executable_path='./chromedriver', options=option) # 彈出瀏覽器,要給瀏覽器驅動的地址
# 打開頁面優先執行的js,execute_cdp_cmd
bro.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
"source": """
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
"""
})
bro.implicitly_wait(10)
bro.get('https://www.toutiao.com/')
time.sleep(5)
print(bro.page_source) # 獲取頁面返回的html代碼
bro.execute_script(js)
input()