基於apache —HttpClient的小爬蟲獲取網頁內容


  今天(17-03-31)忙了一下午研究webmagic,發現自己還太年輕,對於這樣難度的框架(類庫)

還是難以接受,還是從基礎開始吧,因為相對基礎的東西教程相多一些,於是乎我找了apache其下的

HttpClient,根據前輩們發的教程自己也簡單寫了一下,感覺還好。

 

下面實現的是單個頁面的獲取:

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class Main {

    public static void main(String[] args) throws IOException{
        try {
            //創建client實例
            HttpClient client= HttpClients.createDefault();
            //創建httpget實例
            HttpGet httpGet=new HttpGet("http://www.btba.com.cn");
            //執行 get請求
            HttpResponse response=client.execute(httpGet);
            //返回獲取實體
            HttpEntity entity=response.getEntity();
            //獲取網頁內容,指定編碼
            String web= EntityUtils.toString(entity,"UTF-8");
            //輸出網頁
            System.out.println(web);

        } catch (IOException e) {
            e.printStackTrace();
        }


    }
}

部分截圖展示:

 

下面提供了HttpClient的下載: http://hc.apache.org/downloads.cgi

 

webmagic基於HttpClient、Jsoup 所以,現將這兩個學會了、學懂了在去嘗試啃webmagic吧

下一篇講Jsoup對於本篇下載網頁的簡單解析處理。。。

 

本人還是小白一只,以上有什么不足或者不對之處請指出,非常感謝個位。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM