Scrapy爬取動態內容(二)Selenium Chrome方案

當調用driver.get(" https://xxxx.xxx.xxx")來訪問某頁面時，get方法通常會阻塞瀏覽器直到頁面完全加載后才執行后面的動作，若一個頁面加載過慢，則會導致get方法一直阻塞。有時候希望頁面在加載過程中就開始檢測元素是否存在，而不是等到頁面加載完了才開始檢測，想要實現這個效果，可以用ChromeOptions類下的setPageLoadStrategy方法：

desired_capabilities = DesiredCapabilities.CHROME

desired_capabilities["pageLoadStrategy"] = "none"

driver = webdriver.Chrome(desired_capabilities=desired_capabilities,chrome_options=chrome_options)

其中PageLoadStrategy有三種選擇：

(1) none: 當html下載完成之后，不等待解析完成，selenium會直接返回

(2) eager: 要等待整個dom樹加載完成，即DOMContentLoaded這個事件完成，僅對html的內容進行下載解析

(3) normal: 即正常情況下，selenium會等待整個界面加載完成（指對html和子資源的下載與解析,如JS文件，圖片等，不包括ajax）

實際上，對於一個新加載的dom，頁面啥時候開始接受命令由頁面的加載策略決定，也就是說，我們通過修改頁面加載策略，可以使頁面即使處於加載中，也能接受我們的命令，從這點可以解決webdriver.get的阻塞問題。而每類webdriver都有一個對應的配置文件放在特定的類DesiredCapabilities里面，通過修改里面的pageLoadStrategy，可以使webdriver的頁面加載策略發生改變。

2、chrome參數設置

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument("--disable-extensions")

chrome_options.add_argument("--disable-gpu")

chrome_options.add_argument("--no-sandbox") # 取消沙盒模式, for linux root

chrome_options.add_argument("--headless") # 瀏覽器不提供可視化頁面

chrome_options.add_argument('--start-maximized') # 最大化運行（全屏窗口）,不設置，取元素會報錯

chrome_options.add_argument('--disable-infobars') # 禁用瀏覽器正在被自動化程序控制的提示

chrome_options.add_argument('--incognito') # 隱身模式（無痕模式）

chrome_options.add_argument('blink-settings=imagesEnabled=false') # 不加載圖片

chrome_options.add_argument('log-level=2’) # 日志級別

# info(default) = 0

# warning = 1

# LOG_ERROR = 2

# LOG_FATAL = 3

3、代理設置

這里發現動態變更代理是個挺麻煩的事情，目前根據下面的文章已經摸索成功並投入運行。

http://longofo.cc/selenium%E5%AE%9E%E7%8E%B0%E5%8A%A8%E6%80%81%E5%88%87%E6%8D%A2ip.html

麻煩的一點是打開的chrome實例需要定期清理，否則CPU使用率一直下不來，導致系統壓力過大。

4、scrapy-async-selenium

Selenium在scrapy的異步使用，解決了已知阻塞的效率問題，又一篇神作，給了很大的啟發！

整體方案是非常合理有效的。

已經在系統中成功使用，期間還有一些細節問題待進一步梳理。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy 爬取動態頁面 python+selenium+PhantomJS爬取網頁動態加載內容 python+selenium+PhantomJS爬取網頁動態加載內容爬蟲之Selenium 動態渲染頁面爬取網絡爬蟲之動態內容爬取 scrapy將爬取的中文內容保存到json文件中 scrapy增量爬取 spring-boot搭配selenium-chrome爬取頁面 Python Selenium Chrome Headless 爬取企查查數據 Scrapy實戰篇（六）之Scrapy配合Selenium爬取京東信息（上）