爬蟲+jsoup輕松爬博客

最近的開發任務主要是爬蟲爬新聞信息，這里主要用到技術就是jsoup，jsoup 是一款 Java的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過

DOM，CSS以及類似於jQuery的操作方法來取出和操作數據。這篇文章就講通過jsoup爬蟲的實際案例，下一篇再講jsoup的具體文檔。

主要爬蟲對象就以我之前寫的一篇博客：【java提高】---java反射機制

主要爬區的信息有

（1）該文章的標題

（2）該文章的二類標題

（3）發表時間

（4）閱讀數量

一、案例演示

1、代碼部分

package com.jincou.pachong;

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

 /*
  * 這個案例你只需要看結果，具體的jsoup介紹下一篇博客會詳細介紹
  */
public class Pachong {
     public static void main(String args[]){     
    
         //這個就是博客中的java反射的url     
     final String url=  "https://www.cnblogs.com/qdhxhz/p/9230805.html";
         
        try {
        //先獲得的是整個頁面的html標簽頁面
         Document doc = Jsoup.connect(url).get();
        
         //獲取正文標題，因為整片文章只有標題是用h1標簽
         Elements btEl = doc.select("H1");
         String  bt=btEl.text();
         System.out.println("========正文標題======："); 
         System.out.println(bt); 
                
       //獲取二級標題
         Elements ejbtEls = doc.select("H2");
       //因為整片文章有多個二級標題所以進行拼接
         StringBuilder  ejbts=new  StringBuilder();
         for(Element el :ejbtEls) {
             ejbts.append(el.text());
             ejbts.append("\n");
         }
        String ejbt=ejbts.toString();
        System.out.println("=======二級標題=========："); 
        System.out.println(ejbt); 
                   
       //獲取時間
       Elements timeEl = doc.select("#post-date");
       String  time=timeEl.text();
       System.out.println("========發布時間=========："); 
       System.out.println("發布時間：" + time); 
      
       //獲取閱讀數量
       Elements readEl = doc.select("#post_view_count");
       String  read=readEl.text();
       System.out.println("========閱讀數量=========："); 
      System.out.println("閱讀數量：" + read); 
       
        } catch (IOException e) {
            e.printStackTrace();
        }
 }
}