相比於C#,java爬蟲,python爬蟲更為方便簡要,首先呢,python的urllib2包提供了較為完整的訪問網頁文檔的API,再者呢對於摘下來的文章,python的beautifulsoap提供了簡潔的文檔處理功能,這就成就了他爬蟲的優勢。
作為一名滿腦子要成為一名大牛的程序員小白來講,倒不是非要熱愛哪一門語言,還是覺得哪一個好用而用之。
那么今天呢就來給大家分享一個我喜歡但是不好用的java爬蟲系列...
先上碼和效果圖
package org.lq.wzq.Test; /** * 讀取青年網的數據,並進行分析 * xutao 2018-11-22 09:09 */ import java.io.*; import java.net.*; public class pachong { public static void main(String args[]){ //確定爬取的網頁地址,此處為青年網熱點新聞的網頁 //網址為 http://news.youth.cn/sz/201811/t20181121_11792273.htm String strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm"; //建立url爬取核心對象 try { URL url=new URL(strurl); //通過url建立與網頁的連接 URLConnection conn=url.openConnection(); //通過鏈接取得網頁返回的數據 InputStream is=conn.getInputStream(); System.out.println(conn.getContentEncoding()); //一般按行讀取網頁數據,並進行內容分析 //因此用BufferedReader和InputStreamReader把字節流轉化為字符流的緩沖流 //進行轉換時,需要處理編碼格式問題 注意一般為GBK或者UTF-8(亂碼就換另外一個) BufferedReader br=new BufferedReader(new InputStreamReader(is,"GBK")); //按行讀取並打印 String line=null; while((line=br.readLine())!=null){ System.out.println(line); } br.close(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
查看網站源碼,你就會發現程序爬取的其實就是整個網頁
而代碼則是一行一行輸出的,具體的整理關鍵點在於正則表達式的應用,拿到適合自己的數據,最后在儲存到txt或者excle表格中。
具體詳情請觀看
1.java導入excle表格,並且對表格進行相應的修改,並對表格數據進行整理,最后導出本地表格等一系列操作
2.java讀取txt文件,對字符串進行操作后導出txt文件