基於HttpClient、Jsoup的爬蟲獲取指定網頁內容

本文轉載自查看原文 2017-04-03 18:07 3228 java 爬蟲

　　不斷嘗試，發現越來越多有趣的東西，剛剛接觸Jsoup感覺比正則表達式用起來方便，但也有局限只適用HTML的解析。

不能嘗試運用到四則運算中（工作室剛開始聯系的小程序）。

　　在原來寫的HttpClient獲取網頁內容的基礎上，增加對網頁的解析。

　下面是實現對網頁中電影分類的鏈接信息的爬取。

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;



public class Main {

    public static void main(String[] args) throws IOException{
        try {
            //創建client實例
            HttpClient client= HttpClients.createDefault();
            //創建httpget實例
            HttpGet httpGet=new HttpGet("http://www.btba.com.cn");
            //執行 get請求
            HttpResponse response=client.execute(httpGet);
            //返回獲取實體
            HttpEntity entity=response.getEntity();
            //獲取網頁內容，指定編碼
            String web= EntityUtils.toString(entity,"UTF-8");
            //輸出網頁
            System.out.println(web);
            Document doc= Jsoup.parse(web);
            Elements links=doc.select("a[href~=http://www.btba.com.cn/type/*]");//選擇器，選取特征信息
            String webs=null;
            for (Element link:links) {
                webs=link.attr("abs:href").toString();
                System.out.println(webs+"\t\t"+link.text());//輸出特征信息
            }

        } catch (IOException e) {
            e.printStackTrace();
        }


    }
}

下一步，將完成電影鏈接及電影相關信息的爬取。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於apache —HttpClient的小爬蟲獲取網頁內容 jsoup抓取網頁內容 Jsoup獲取網頁內容（並且解決中文亂碼問題）使用Jsoup獲取網頁內容超時設置 Httpclient 和jsoup結和提取網頁內容(某客學院視頻鏈接）如何使用Jsoup爬取網頁內容 Python爬蟲：lxml模塊分析並獲取網頁內容簡單的python爬蟲 --獲取當前網頁內容 java獲取網頁內容關於java獲取網頁內容