python+selenium+PhantomJS爬取網頁動態加載內容

本文轉載自查看原文 2018-04-20 00:45 1123 python

一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selenium+無界面瀏覽器PhantomJS來抓取javascript渲染的頁面，下面實現一個簡單的爬取

環境搭建

准備工具：python3.5,selenium,phantomjs

我的電腦里面已經裝好了python3.5

安裝Selenium

 
                 pip3 install selenium

安裝Phantomjs　　

按照系統環境下載phantomjs,下載完成之后，將phantomjs.exe解壓到python的script文件夾下

使用selenium+phantomjs實現簡單爬蟲

 
                 from 
                 selenium import webdriver 
                
                 driver = webdriver.PhantomJS() 
                
                 driver. 
                 get 
                 ( 
                 'http://www.baidu.com' 
                 )   #加載網頁 
                
                 data = driver.page_source   #獲取網頁文本 
                
                 driver.save_screenshot( 
                 '1.png' 
                 )   #截圖保存 
                
                 print(data) 
                
                 driver.quit()

selenium+phantomjs的一些使用方法

設置請求頭里的user-Agent

 
                 from 
                 selenium import webdriver 
                
                 from 
                 selenium.webdriver.common.desired_capabilities import DesiredCapabilities 
                
                 dcap = dict(DesiredCapabilities.PHANTOMJS)  #設置useragent 
                
                 dcap[ 
                 'phantomjs.page.settings.userAgent' 
                 ] = ( 
                 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ' 
                 )  #根據需要設置具體的瀏覽器信息 
                
                 driver = webdriver.PhantomJS(desired_capabilities=dcap)  #封裝瀏覽器信息 
                
                 driver. 
                 get 
                 ( 
                 'http://www.baidu.com' 
                 )   #加載網頁 
                
                 data = driver.page_source   #獲取網頁文本 
                
                 driver.save_screenshot( 
                 '1.png' 
                 )   #截圖保存 
                
                 print(data) 
                
                 driver.quit()

請求超時設置

webdriver類中有三個和時間相關的方法：

1.pageLoadTimeout 設置頁面完全加載的超時時間，完全加載即完全渲染完成，同步和異步腳本都執行完

2.setScriptTimeout 設置異步腳本的超時時間

3.implicitlyWait 識別對象的智能等待時間

 
                 from 
                 selenium import webdriver 
                
                 driver = webdriver.PhantomJS() 
                
                 driver.set_page_load_timeout(5)  #設置超時時間 
                
                 driver. 
                 get 
                 ( 
                 'http://www.baidu.com' 
                 ) 
                
                 print(driver.title) 
                
                 driver.quit()

設置瀏覽器窗口大小

調用啟動的瀏覽器不是全屏的，有時候會影響我們的某些操作，所以我們可以設置全屏

 
                 driver.maximize_window()  #設置全屏 
                
                 driver.set_window_size( 
                 '480' 
                 , 
                 '800' 
                 ) #設置瀏覽器寬480，高800

元素定位

 
                 from 
                 selenium import webdriver 
                
                 driver = webdriver.PhantomJS() 
                
                 driver.set_page_load_timeout(5) 
                
                 driver. 
                 get 
                 ( 
                 'http://www.baidu.com' 
                 ) 
                
                 try 
                 : 
                
                 driver. 
                 get 
                 ( 
                 'http://www.baidu.com' 
                 ) 
                
                 driver.find_element_by_id( 
                 'kw' 
                 )  # 通過ID定位 
                
                 driver.find_element_by_class_name( 
                 's_ipt' 
                 )  # 通過 
                 class 
                 屬性定位 
                
                 driver.find_element_by_name( 
                 'wd' 
                 )  # 通過標簽name屬性定位 
                
                 driver.find_element_by_tag_name( 
                 'input' 
                 )  # 通過標簽屬性定位 
                
                 driver.find_element_by_css_selector( 
                 '#kw' 
                 )  # 通過css方式定位 
                
                 driver.find_element_by_xpath( 
                 "//input[@id='kw']" 
                 )  # 通過xpath方式定位 
                
                 driver.find_element_by_link_text( 
                 "貼吧" 
                 )  # 通過xpath方式定位 
                
                 print(driver.find_element_by_id( 
                 'kw' 
                 ).tag_name ) # 獲取標簽的類型 
                
                 except Exception  
                 as 
                 e: 
                
                 print(e) 
                
                 driver.quit()

操作瀏覽器前進或后退

 
              from 
              selenium import webdriver 
             
              driver = webdriver.PhantomJS() 
             
              try 
              : 
             
              driver. 
              get 
              ( 
              'http://www.baidu.com' 
              )   #訪問百度首頁 
             
              driver.save_screenshot( 
              '1.png' 
              ) 
             
              driver. 
              get 
              ( 
              'http://www.sina.com.cn' 
              ) #訪問新浪首頁 
             
              driver.save_screenshot( 
              '2.png' 
              ) 
             
              driver.back()                           #回退到百度首頁 
             
              driver.save_screenshot( 
              '3.png' 
              ) 
             
              driver.forward()                        #前進到新浪首頁 
             
              driver.save_screenshot( 
              '4.png' 
              ) 
             
              except Exception  
              as 
              e: 
             
              print(e) 
             
              driver.quit()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python+selenium+PhantomJS爬取網頁動態加載內容 Python+selenium+PhantomJS爬取異步加載的網站 Python爬蟲學習——使用selenium和phantomjs爬取js動態加載的網頁 Selenium+PhantomJs 爬取網頁內容 Python 使用selenium+webdriver爬取動態網頁內容 Python3.x：Selenium+PhantomJS爬取帶Ajax、Js的網頁及獲取JS返回值 Python3.x：Selenium+PhantomJS爬取帶Ajax、Js的網頁 Python 爬蟲-selenium動態網頁爬取 python爬取動態網頁2，從JavaScript文件讀取內容 Python+Selenium爬取動態加載頁面（2）