jsoup 中文參考文獻 http://www.open-open.com/jsoup/
本文將利用jsoup,簡單實現網絡抓取的功能,並給出一個小實例,該實例效果為:獲取作者本人在博客園寫的所有文章的標題。
一:建立一個java工程,導入jsoup包,junit(導入junit包,hamcrest包)。若不知junit為何要導入兩個包,請點擊鏈接‘junit的使用’。
二:建立一個demo.java類,實現代碼如下:
import java.io.IOException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.junit.Test; public class demo { @Test public void reasUrl() throws IOException { String url = "http://www.cnblogs.com/sky-"; Connection conn = Jsoup.connect(url); // 建立與url中頁面的連接 Document doc = conn.get(); // 解析頁面 Elements links = doc.select("a[href]"); // 獲取頁面中所有的超鏈接 int i = 1; for (Element link : links) { if ("閱讀全文".equals(link.text())) { // 獲取頁面中每篇文章‘閱讀全文’的鏈接,進入文章 Document doc2 = Jsoup.connect(link.attr("abs:href")).get(); // 解析每篇文章的頁面 System.out.println("第" + i + "篇:" + doc2.title()); // 把該文章的標題打印出來 i++; } } } }
三:運行項目即可得到作者本人在博客園寫的所有文章的標題
第1篇:jsoup解析HTML及簡單實例 - sky_爍 - 博客園 第2篇:面向接口編程及適配器模式 - sky_爍 - 博客園 第3篇:數據庫 SQL語句小結 - sky_爍 - 博客園
