Jsoup -- 網絡爬蟲解析器


需要下載jsoup-1.8.1.jar包

jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作數據。

網頁獲取和解析速度飛快,推薦使用。
主要功能如下:
1. 從一個URL,文件或字符串中解析HTML;
2. 使用DOM或CSS選擇器來查找、取出數據;
3. 可操作HTML元素、屬性、文本;

范例代碼如下:

Java代碼   收藏代碼
  1. package cn.ysh.studio.crawler.jsoup;  
  2.   
  3. import java.io.IOException;  
  4. import org.jsoup.Jsoup;  
  5.   
  6. /** 
  7.  * 基於Jsoup抓取網頁內容 
  8.  * @author www.yshjava.cn 
  9.  */  
  10. public class JsoupTest {  
  11.   
  12.     public static void main(String[] args) throws IOException {  
  13.         //目標頁面  
  14.         String url = "http://www.yshjava.cn";  
  15.         //使用Jsoup連接目標頁面,並執行請求,獲取服務器響應內容  
  16.         String html = Jsoup.connect(url).execute().body();  
  17.         //打印頁面內容  
  18.         System.out.println(html);  
  19.     }  
  20. }  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM