jsoup解析HTML及簡單實例

本文轉載自查看原文 2015-07-06 09:23 3102 jsoup

jsoup 中文參考文獻 http://www.open-open.com/jsoup/

本文將利用jsoup，簡單實現網絡抓取的功能，並給出一個小實例，該實例效果為：獲取作者本人在博客園寫的所有文章的標題。

一：建立一個java工程，導入jsoup包，junit(導入junit包,hamcrest包）。若不知junit為何要導入兩個包，請點擊鏈接‘junit的使用’。

二：建立一個demo.java類，實現代碼如下：

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.Test;

public class demo {
    @Test
    public void reasUrl() throws IOException {
        String url = "http://www.cnblogs.com/sky-";
        Connection conn = Jsoup.connect(url); // 建立與url中頁面的連接
        Document doc = conn.get(); // 解析頁面
        Elements links = doc.select("a[href]"); // 獲取頁面中所有的超鏈接
        int i = 1;
        for (Element link : links) {
            if ("閱讀全文".equals(link.text())) { // 獲取頁面中每篇文章‘閱讀全文’的鏈接，進入文章
                Document doc2 = Jsoup.connect(link.attr("abs:href")).get(); // 解析每篇文章的頁面
                System.out.println("第" + i + "篇：" + doc2.title()); // 把該文章的標題打印出來
                i++;
            }
        }
    }
}

三：運行項目即可得到作者本人在博客園寫的所有文章的標題

第1篇：jsoup解析HTML及簡單實例 - sky_爍 - 博客園
第2篇：面向接口編程及適配器模式 - sky_爍 - 博客園
第3篇：數據庫 SQL語句小結 - sky_爍 - 博客園

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用Jsoup解析HTML頁面 Java爬蟲利器HTML解析工具-Jsoup Java上的jQuery？解析HTML利器—Jsoup Jsoup 解析Html及替換img標簽屬性 Spring Boot 系列教程11-html頁面解析-jsoup 簡談java解析HTML(org.jsoup.nodes.Document) Android開發探秘之三：利用jsoup解析HTML頁面 Kotlin DSL for HTML實例解析 XML解析之Jsoup Jsoup 的認識和簡單使用