基於apache —HttpClient的小爬蟲獲取網頁內容

本文轉載自查看原文 2017-03-31 21:41 3188 java 爬蟲

　　今天（17-03-31）忙了一下午研究webmagic,發現自己還太年輕，對於這樣難度的框架（類庫）

還是難以接受，還是從基礎開始吧，因為相對基礎的東西教程相多一些，於是乎我找了apache其下的

HttpClient,根據前輩們發的教程自己也簡單寫了一下，感覺還好。

下面實現的是單個頁面的獲取：

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class Main {

    public static void main(String[] args) throws IOException{
        try {
            //創建client實例
            HttpClient client= HttpClients.createDefault();
            //創建httpget實例
            HttpGet httpGet=new HttpGet("http://www.btba.com.cn");
            //執行 get請求
            HttpResponse response=client.execute(httpGet);
            //返回獲取實體
            HttpEntity entity=response.getEntity();
            //獲取網頁內容，指定編碼
            String web= EntityUtils.toString(entity,"UTF-8");
            //輸出網頁
            System.out.println(web);

        } catch (IOException e) {
            e.printStackTrace();
        }


    }
}

部分截圖展示：

下面提供了HttpClient的下載： http://hc.apache.org/downloads.cgi

webmagic基於HttpClient、Jsoup 所以，現將這兩個學會了、學懂了在去嘗試啃webmagic吧

下一篇講Jsoup對於本篇下載網頁的簡單解析處理。。。

本人還是小白一只，以上有什么不足或者不對之處請指出，非常感謝個位。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java 如何獲取網頁的動態內容，並解析網頁內容 .NetCore實踐爬蟲系統（一）解析網頁內容 python爬蟲：使用BeautifulSoup修改網頁內容 Jsoup獲取網頁內容（並且解決中文亂碼問題） C#獲取網頁內容的三種方式使用Jsoup獲取網頁內容超時設置 Httpclient 和jsoup結和提取網頁內容(某客學院視頻鏈接） php 網頁內容抓取【python】第一個爬蟲：用requests庫爬取網頁內容 Java爬蟲https網頁內容報錯SSLHandshakeException信任（忽略）所有SSL證書