小白學 Python 爬蟲（27）：自動化測試框架 Selenium 從入門到放棄（上）

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')
input = browser.find_element_by_id('kw')
input.send_keys('極客挖掘機')
input.send_keys(Keys.ENTER)
print(browser.current_url)
print(browser.get_cookies())
print(browser.page_source)

運行以上代碼，可以看到自動彈出來一個 Chrome 瀏覽器，並且上面標示了： Chrome 正受到自動軟件的控制。然后打開了百度，在輸入框中輸入了 “極客挖掘機” 進行搜索。

再搜索結果出來后控制台打印了當前的 URL 、 cookies 和網頁的源代碼。

控制台的運行結果就截個圖吧，內容太長就不貼了。

可以看到， Selenium 拿到的內容，都是真實展示在瀏覽器中的內容。由 JavaScript 動態加載的頁面生成的 DOM 節點在 Selenium 下也無所遁形。

這個很好解釋，因為 Selenium 是直接拿到的瀏覽器展示的內容。

聲明瀏覽器對象

Selenium 支持非常多的瀏覽器，如：

from selenium import webdriver

# 聲明瀏覽器對象，需對應的驅動程序方可使用
browser = webdriver.android()
browser = webdriver.blackberry()
browser = webdriver.chrome()
browser = webdriver.edge()
browser = webdriver.firefox()
browser = webdriver.ie()
browser = webdriver.opera()
browser = webdriver.phantomjs()
browser = webdriver.safari()

可以看到有我熟悉的 IE 瀏覽器、 Edge 瀏覽器、 FireFox 瀏覽器、 Opera 瀏覽器等等。

訪問網頁

訪問網頁可以使用 get() 方法，參數傳入我們想要訪問的網站即可：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')
print(browser.page_source)

通過上面兩行代碼，我們可以看到自動打開了瀏覽器並訪問的京東，在控制台打印了京東的源代碼。

當然，如果想要程序自動關閉瀏覽器的話可以使用：

browser.close()

這句話加在上面可以看到瀏覽器打開后訪問京東一閃而過就關掉了。

查找單個節點

我們獲取到網頁后，第一步肯定是要先查找到 DOM 節點啊，然后可以直接從 DOM 節點中獲取數據。

不過有了 Selenium 以后，我們不僅可以查找到節點獲取數據，還可以模擬用戶操作，比如在搜索框輸入某些內容，點擊按鈕等等操作，不過還是先看看怎么查找節點：

從上面這張圖可以看到，我們想要獲取輸入框，可以通過 id 進行獲取，那么我們接下來的代碼要這么寫：

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')
input_key = browser.find_element_by_id('key')
print(input_key)

結果如下：

<selenium.webdriver.remote.webelement.WebElement (session="86d1ae1419bee22099a168dfbf921a27", element="53047804-ad39-4dfd-b3fb-a149fb1c8ac8")>

可以看到，我們獲得的元素類型是 WebElement 。

小編這里順手列出所有的獲得單個節點的方法：

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

此外， selenium 還未我們提供了一個通用方法 find_element() ，它需要傳入兩個參數：查找方式 By 和值。實際上上面示例中的查找方式還可以這么寫（效果完全一樣哦~~~）：

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

browser.get('https://www.jd.com/')
input_key1 = browser.find_element(By.ID, 'key')
print(input_key1)

結果小編就不貼了，各位同學可以自己運行下進行對比。

查找多個節點

比如我們要查找左邊的這種導航條的所有條目：

可以這么寫：

lis = browser.find_elements_by_css_selector('.cate_menu li')
print(lis)

結果如下：

[<selenium.webdriver.remote.webelement.WebElement (session="6341ab4f39733b5f6b6bd51508b62f1d", element="8e0d1a8c-d5dc-4b1f-8250-7f0eca864ea7")>, <selenium.webdriver.remote.webelement.WebElement (session="6341ab4f39733b5f6b6bd51508b62f1d", element="15cd4dc9-42f4-4ed7-9258-9aa29073243c")>, 
......]

太多了，小編后面的結果就省略掉了。

下面列出來所有的多節點選擇的方法：

find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

同樣，多節點選擇也有一個 find_elements() 的方法，小編這里就不展示，各位同學自己試一試。

本篇先到這里，下一篇我們接着介紹交互操作。

示例代碼

本系列的所有代碼小編都會放在代碼管理倉庫 Github 和 Gitee 上，方便大家取用。

示例代碼-Github

示例代碼-Gitee

參考

https://selenium-python.readthedocs.io/api.html

https://cuiqingcai.com/5630.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。