java爬蟲之入門基礎


相比於C#,java爬蟲,python爬蟲更為方便簡要,首先呢,python的urllib2包提供了較為完整的訪問網頁文檔的API,再者呢對於摘下來的文章,python的beautifulsoap提供了簡潔的文檔處理功能,這就成就了他爬蟲的優勢。

作為一名滿腦子要成為一名大牛的程序員小白來講,倒不是非要熱愛哪一門語言,還是覺得哪一個好用而用之。

那么今天呢就來給大家分享一個我喜歡但是不好用的java爬蟲系列...

先上碼和效果圖

package org.lq.wzq.Test;
/**
 * 讀取青年網的數據,並進行分析
 * xutao   2018-11-22  09:09
 */
import java.io.*;
import java.net.*;

public class pachong {
    public static void main(String args[]){
        //確定爬取的網頁地址,此處為青年網熱點新聞的網頁
        //網址為       http://news.youth.cn/sz/201811/t20181121_11792273.htm
        String strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm";
        //建立url爬取核心對象
        try {
            URL url=new URL(strurl);
            //通過url建立與網頁的連接
            URLConnection conn=url.openConnection();
            //通過鏈接取得網頁返回的數據
            InputStream is=conn.getInputStream();
            System.out.println(conn.getContentEncoding());
            //一般按行讀取網頁數據,並進行內容分析
            //因此用BufferedReader和InputStreamReader把字節流轉化為字符流的緩沖流
            //進行轉換時,需要處理編碼格式問題   注意一般為GBK或者UTF-8(亂碼就換另外一個)
            BufferedReader br=new BufferedReader(new InputStreamReader(is,"GBK"));
            //按行讀取並打印
            String line=null;
            while((line=br.readLine())!=null){
                System.out.println(line);
            }
            br.close();
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }
}

查看網站源碼,你就會發現程序爬取的其實就是整個網頁

而代碼則是一行一行輸出的,具體的整理關鍵點在於正則表達式的應用,拿到適合自己的數據,最后在儲存到txt或者excle表格中。

具體詳情請觀看

1.java導入excle表格,並且對表格進行相應的修改,並對表格數據進行整理,最后導出本地表格等一系列操作

2.java讀取txt文件,對字符串進行操作后導出txt文件

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM