Selenium官方網站
http://selenium-python.readthedocs.io/
配置使用環境
下載相應的瀏覽器驅動, Firefox 是默認的
本文以 chrome 為主 ,放在scripts目錄下
ChromeDriver 官方下載地址 : 所有版本的 ChromeDriver
文檔參考
官方文檔 : Selenium with Python
一份簡單的測試 demo
1 #coding=utf-8 2 from selenium import webdriver 3 import os 4 import time 5 # set little time stop and big time stop for viewing changes 6 little_time_stop = 1 7 big_time_stop = 2 8 # 默認廣告條數 9 ads_num_require = 8 10 # 請求連接 11 req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1" 12 # 打開瀏覽器 13 14 browser = webdriver.Chrome() 15 # 開始請求 16 17 browser.get(req_url) 17 # 獲取所有的廣告 18 19 all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li') 20 # 當前廣告條數 21 ads_num_current = len(all_ads_li) 22 print "Has been got %d ads" %(ads_num_current) 23 # 如果廣告條數與默認不符 24 if ads_num_current < ads_num_require: 25 print "The number of ads is not enough ( current : %d require: %d)" %(ads_num_current,ads_num_require) 26 # exit() 27 # 獲取頂部連接 28 i = 0 29 for ads_li in all_ads_li: 30 time.sleep(big_time_stop) 31 i = i+1 32 print "ads %d :" %i 33 try: 34 main = ads_li.find_element_by_css_selector('h3 a') 35 except: 36 print "\tError: ads %d cann't find" %(i) 37 else: 38 print "\tReady: visit ads %d" %(i) 39 main.click() 40 print "\tSucess: visit ads %d" %(i) 41 time.sleep(little_time_stop) 42 try: 43 img_link = ads_li.find_element_by_class_name('e_biyi_img') 44 except: 45 print "\tError : no img in ads %d " %(i) 46 else: 47 print "\tReady : visit img_link %d" %(i) 48 img_link.click() 49 print "\tSuccess : visit img_link %d" %(i) 50 time.sleep(little_time_stop) 51 try: 52 child_div = ads_li.find_element_by_class_name('e_biyi_childLink'); 53 except: 54 print "\tError : no child link in ads %d" %(i) 55 else: 56 try: 57 child_links = child_div.find_elements_by_css_selector('a') 58 except: 59 print "\tError : find child_links error" 60 else: 61 num_links = len(child_links) 62 print "\tSuccess : there are %d child_links" %(num_links) 63 j = 0 64 for child_a in child_links: 65 j = j + 1 66 print "\t\tReady : visit child link %d in ads %d" %(j, i) 67 child_a.click() 68 print "\t\tSuccess : visit child link %d in ads %d" %(j, i) 69 time.sleep(little_time_stop) 70 print "End and thanks for your using!" 71 # 下面代碼選擇取消注釋 72 # 延時 73 # time.sleep(5) 74 # 關閉當前窗口 75 # browser.close() 76 # 關閉所有已經打開的窗口 77 # browser.quit()
定位操作
以下是所有定位操作的 API :
返回一個匹配元素, 即一個 WebElement 元素
find_element_by_id()
find_element_by_name()
find_element_by_class_name()
find_element_by_tag_name()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_xpath()
find_element_by_css_selector()
返回一個列表, 包含所有匹配的元素, 即一個 WebElement 列表
find_elements_by_id()
find_elements_by_name()
find_elements_by_class_name()
find_elements_by_tag_name()
find_elements_by_link_text()
find_elements_by_partial_link_text()
find_elements_by_xpath()
find_elements_by_css_selector()
關於 API 的具體介紹, 請參考 :
module-selenium.webdriver.chrome.webdriver
使用的時候需注意下面幾點 :
- python selenium 提供了兩種對象 :
WebDriver和WebElement
這兩種對象都可以使用這些 API
- 這些 API 一旦執行失敗(即查找不到), 就會拋出異常
因此必須使用 try: .. except: ... 機制避免錯誤的行為影響程序繼續進行
WebDriver調用以上 API 進行全局定位
WebElement 調用以上 API 可以進行層級定位, 即 查找當前元素的子元素
WebDriver 的使用
開始的時候必須要有初始化一個 WebDriver 實例, 即下面的 browser 用來對瀏覽器進行控制以及頁面的訪問
# 請求連接req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"# 打開瀏覽器browser = webdriver.Chrome()# 開始請求browser.get(req_url)
接着, 就可以使用以上 API 進行當前頁面的全局查找, 比如 :
# 獲取所有的廣告all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')
WebElement 的使用
-
使用
browser.find_element_by_xx()得到的是一個WebElement實例
使用獲得的實例調用上面的 API 即可進行層級查找 -
使用
browser.find_elements_by_xx()得到的是一個元素是WebElement實例的 list
通過對 list 的遍歷, 即可對各個實例進行相應的操作
WebDriver 的一些常用操作
browser.curren_url: 獲取當前加載頁面的 URLbrowser.close(): 關閉當前窗口, 如果當前窗口是最后一個窗口, 瀏覽器將關閉browser.quit(): 關閉所有窗口並停止 ChromeDriver 的執行-
browser.add_cookie(cookie_dict): 為當前會話添加 cookiebrowser.get_cookie(name): 得到執行 cookiebrowser.get_cookies(): 得到所有的 cookiedriver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True}) -
browser.delete_all_cookies(): 刪除當前會話的所有cookiebrowser.delete_cookie(name): 刪除指定 cookie browser.back(): 相當於瀏覽器的后退歷史記錄browser.forward(): 相當於瀏覽器的前進歷史記錄browser.execute_script(script, *args): 同步執行 js 腳本browser.execute_async_script(script, *args): 異步執行 js 腳本browser.get(url): 在當前窗口加載 urlbrowser.refresh(): 刷新當前頁面browser.current_window_handle: 當前窗口的 handle, 相當於一個指針一樣的東西, 用來指向當前窗口browser.window_handles: 當前瀏覽器中的已經打開的所有窗口, 是一個 listbrowser.switch_to_window(window_handle): 切換 window_handle 指向的窗口browser.title: 當前頁面的 titlebrowser.name: 當前瀏覽器的名字
具體參照 : module-selenium.webdriver.remote.webdriver
WebElement 的一些常用操作
webEle.clear(): 清楚元素的內容, 假如這個元素是一個文本元素webEle.click(): 點擊當前元素webEle,is_displayed(): 當前元素是否可見webEle.is_enabled(): 當前元素是否禁止, 比如經常會禁用一些元素的點擊webEle.is_selected(): 當前元素是否選中, 文本輸入框的內容webEle.send_keys(*value): 向當前元素模擬鍵盤事件webEle.submit(): 提交表單webEle.tag_name: 當前元素的標簽名webEle.text: 當前元素的內容webEle.get_attribute(name): 獲取當前元素執行屬性的值
