java簡單實現抓取動態網頁數據


java簡單實現抓取動態網頁數據

https://blog.csdn.net/weixin_40262103/article/details/80000460

在這里我分享一段簡單的獲取js執行后的網頁數據!

 

1.先建立一個maven工程

 


在這里我隨便建了一個web工程!

2.將chromedriver.exe 文件放在安裝谷歌的目錄:
下載地址:http://cdn.npm.taobao.org/dist/chromedriver/2.34/chromedriver_win32.zip

根據你安裝的Google路徑比如:C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe
3.在環境變量中的系統變量 path 中配置:
C:\\Program Files (x86)\\Google\\Chrome\\Application 


(配置到Application就可以了)
4.導入jar包,pom.xml 
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>2.44.0</version>
</dependency>
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-chrome-driver</artifactId>
<version>2.44.0</version>
</dependency>
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-server</artifactId>
<version>2.18.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/us.codecraft/webmagic-core -->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.6.1</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.webjars.npm/phantomjs -->
<dependency>
<groupId>org.webjars.npm</groupId>
<artifactId>phantomjs</artifactId>
<version>2.1.2</version>
</dependency>
導入需要的jar包!

5.測試是否配置成功 如果啟動瀏覽器 說明配置成功了
System.setProperty("webdriver.chrome.driver", "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe");
WebDriver webDriver = new ChromeDriver();
setProperty (String prop, String value);  
參數:  
prop - 系統屬性的名稱。  
value - 系統屬性的值。 
返回:系統屬性的值,如果沒有值,則返回null。


6.獲取網頁js執行后頁面全部數據
System.setProperty("webdriver.chrome.driver", "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe");
WebDriver webDriver = new ChromeDriver();
webDriver.get("http://top.baidu.com/?fr=mhd_card");//寫入你要抓取的網址
WebElement webElement = webDriver.findElement(By.xpath("/html"));//獲取頁面全部信息
String htmlText=webElement.getAttribute("outerHTML");
webDriver.close();//必須關閉資源
WebDriver 獲取網頁數據信息,由By來定位,通過WebElement來解析數據!
 如果有興趣的可以去看API!
 簡單描述一下如何獲取節點數據

String hotList= webElement.findElement(By.id("hot-list")).getText();
通過getText()就能獲取文本數據了!
String classText = element.findElement(By.className("className")).getText();
String label = webDriver.findElement(By.tagName("tagName")).getText();
標簽 (多個以第一個為准)匹配獲取文本
//可以執行jQuery查找元素,只要返回一個DOM元素 executeScript(“直接編寫jQuery代碼”)
WebElement element = (WebElement) ((JavascriptExecutor)webDriver).executeScript("return $('#index_dlt_code')[0]");
還有很多方法,這里就不詳細一一說明了!
7.獲取網頁js執行后的style=“dispaly:none;“的隱藏數據
((JavascriptExecutor) webDriver).executeScript("return $('#"+id+"').css('display','block');");
WebElement element = (WebElement) ((JavascriptExecutor) webDriver).executeScript("return $('#"+id+"')[0]")
    通過executeScript操作jQuery 將樣式修改成block就可以獲取到隱藏數據了
————————————————
版權聲明:本文為CSDN博主「假的太真」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_40262103/article/details/80000460


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM