JAVA爬取網頁郵箱


import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 爬取網站上的郵箱
 * https://book.douban.com/subject/24753651/discussion/58975313
 * @author He
 */

public class GetEmail {
    public static void main(String[] args) throws Exception {
        //實例化URL類
        URL url=new URL("https://book.douban.com/subject/24753651/discussion/58975313");
        //取得鏈接
        URLConnection conn = url.openConnection();
        //取得網頁數據
        BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
        //聲明循環結束標記
        String line=null;
        //聲明正則
        String emailReg="\\w+@\\w+(\\.\\w+)+";
        //將正則表達式封裝成對象patttern
        Pattern p = Pattern.compile(emailReg);
        //循環讀取網頁數據
        while ((line=bufIn.readLine())!=null){
            //讓正則對象和要操作的數據相關聯,獲取正則匹配引擎。
            Matcher m = p.matcher(line);
            //循環查詢匹配
            while (m.find()){
                //打印匹配后的結果
                System.out.println(m.group());
            }
        }
    }
}

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM