java爬蟲之入門基礎

本文轉載自查看原文 2018-11-22 09:42 2476 java爬蟲

相比於C#，java爬蟲，python爬蟲更為方便簡要，首先呢，python的urllib2包提供了較為完整的訪問網頁文檔的API，再者呢對於摘下來的文章，python的beautifulsoap提供了簡潔的文檔處理功能，這就成就了他爬蟲的優勢。

作為一名滿腦子要成為一名大牛的程序員小白來講，倒不是非要熱愛哪一門語言，還是覺得哪一個好用而用之。

那么今天呢就來給大家分享一個我喜歡但是不好用的java爬蟲系列...

先上碼和效果圖

package org.lq.wzq.Test;
/**
 * 讀取青年網的數據，並進行分析
 * xutao   2018-11-22  09：09
 */
import java.io.*;
import java.net.*;

public class pachong {
    public static void main(String args[]){
        //確定爬取的網頁地址，此處為青年網熱點新聞的網頁
        //網址為       http://news.youth.cn/sz/201811/t20181121_11792273.htm
        String strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm";
        //建立url爬取核心對象
        try {
            URL url=new URL(strurl);
            //通過url建立與網頁的連接
            URLConnection conn=url.openConnection();
            //通過鏈接取得網頁返回的數據
            InputStream is=conn.getInputStream();
            System.out.println(conn.getContentEncoding());
            //一般按行讀取網頁數據，並進行內容分析
            //因此用BufferedReader和InputStreamReader把字節流轉化為字符流的緩沖流
            //進行轉換時，需要處理編碼格式問題   注意一般為GBK或者UTF-8（亂碼就換另外一個）
            BufferedReader br=new BufferedReader(new InputStreamReader(is,"GBK"));
            //按行讀取並打印
            String line=null;
            while((line=br.readLine())!=null){
                System.out.println(line);
            }
            br.close();
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }
}

查看網站源碼，你就會發現程序爬取的其實就是整個網頁

而代碼則是一行一行輸出的，具體的整理關鍵點在於正則表達式的應用，拿到適合自己的數據，最后在儲存到txt或者excle表格中。

具體詳情請觀看

1.java導入excle表格，並且對表格進行相應的修改，並對表格數據進行整理，最后導出本地表格等一系列操作

2.java讀取txt文件，對字符串進行操作后導出txt文件

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲基礎入門 java爬蟲入門 java爬蟲系列(一) - 入門零基礎入門python爬蟲(一) java爬蟲的selenium基礎使用 java網絡爬蟲基礎學習（一）【零基礎】快速入門爬蟲框架HtmlUnit 小白學 Python 爬蟲（34）：爬蟲框架 Scrapy 入門基礎（二）小白學 Python 爬蟲（33）：爬蟲框架 Scrapy 入門基礎（一） java基礎（六）：RabbitMQ 入門