python | 爬蟲筆記（七）- 動態渲染頁面抓取Selenium

本文轉載自查看原文 2018-09-28 10:57 2343 爬蟲/ python/ Python

JavaScript 動態渲染的頁面不止 Ajax 這一種

另外有的ajax渲染接口含有很多加密參數，難以直接找出其規律

通過模擬瀏覽器運行的方式來實現，Selenium、Splash、PyV8、Ghost 等

自動化測試工具，支持多種瀏覽器。爬蟲中主要用來解決js渲染問題

用 Selenium 來驅動瀏覽器加載網頁的話，可以直接拿到JavaScript 渲染的結果了，加密不用再擔心。

1- 聲明瀏覽器對象

browser = webdriver.Chrome()

2- 訪問頁面

browser.get('https://www.taobao.com')

3- 查找節點

input_first = browser.find_element(By.ID, 'q') #單個節點
lis = browser.find_elements_by_css_selector('.service-bd li')

4- 節點交互

...

5- 獲取節點信息

通過 page_source 屬性可以獲取網頁的源代碼，獲取源代碼之后就可以使用解析庫如正則、BeautifulSoup、PyQuery 等來提取信息了。

不過 Selenium 已經提供了選擇節點的方法，返回WebElement 類型，可以通過相關方法或屬性來解析

6- 獲取屬性

7- 切換frame

8- 延時等待

確保節點已經加載出來

- 隱式等待

當查找節點而節點並沒有立即出現的時候，隱式等待將等待一段時間再查找 DOM，默認的時間是 0。 implicitly_wait()

- 顯式等待

指定好要查找的節點，然后指定一個最長等待時間。如果在規定時間內加載出來了這個節點，那就返回查找的節點，如果到了規定時間依然沒有加載出該節點，則會拋出超時異常。

##本系列內容為《python3爬蟲開發實戰》學習筆記。本系列博客列表如下：

持續更新...

對應代碼請見：..

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲之Selenium 動態渲染頁面爬取 Python爬蟲學習筆記7：動態渲染頁面爬取 Scrapy爬蟲框架（實戰篇）【Scrapy框架對接Splash抓取javaScript動態渲染頁面】 Splash抓取javaScript動態渲染頁面【音樂爬蟲】Python爬蟲-selenium+browsermob-proxy 解決動態網頁 js渲染問題使用Selenium來抓取動態加載的頁面玩玩小爬蟲——抓取動態頁面 Python爬蟲之json動態數據抓取爬蟲selenium動態網頁數據抓取 python3編寫網絡爬蟲14-動態渲染頁面爬取