今天(17-03-31)忙了一下午研究webmagic,發現自己還太年輕,對於這樣難度的框架(類庫)
還是難以接受,還是從基礎開始吧,因為相對基礎的東西教程相多一些,於是乎我找了apache其下的
HttpClient,根據前輩們發的教程自己也簡單寫了一下,感覺還好。
下面實現的是單個頁面的獲取:
import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; import java.io.IOException; public class Main { public static void main(String[] args) throws IOException{ try { //創建client實例 HttpClient client= HttpClients.createDefault(); //創建httpget實例 HttpGet httpGet=new HttpGet("http://www.btba.com.cn"); //執行 get請求 HttpResponse response=client.execute(httpGet); //返回獲取實體 HttpEntity entity=response.getEntity(); //獲取網頁內容,指定編碼 String web= EntityUtils.toString(entity,"UTF-8"); //輸出網頁 System.out.println(web); } catch (IOException e) { e.printStackTrace(); } } }
部分截圖展示:
下面提供了HttpClient的下載: http://hc.apache.org/downloads.cgi
webmagic基於HttpClient、Jsoup 所以,現將這兩個學會了、學懂了在去嘗試啃webmagic吧
下一篇講Jsoup對於本篇下載網頁的簡單解析處理。。。
本人還是小白一只,以上有什么不足或者不對之處請指出,非常感謝個位。