Java簡單模擬登陸和爬蟲實例---博客園老牛大講堂


鑒於有人說講的不清楚,我這里再詳細補充一下:更新日期:2017-11-23

  本片文章適合初學者,只簡單說了一下爬蟲怎么用,和一個簡單的小實例。不適合你的就可以不看了。----博客園老牛大講堂

1、什么是爬蟲?

  個人推薦:什么是網絡爬蟲

  個人解釋:網路爬蟲其實就是拷貝網頁源代碼。

                        例如:我寫了個網站:http://www.qe14053716.icoc.me/,你想獲取里面的數據咋辦?java的話肯定是把網站的源代碼全部拿過來,把想要的數據給分析出來就完事了!

        百度爬蟲:百度是個搜索引擎,它的工作是什么呢?其實就是不斷的把你的源代碼拿過去,之后你的數據就泄漏了。

                        例如:我的博客園老牛大講堂,這篇文章百度會每隔一段時間爬取一下,這樣大家就能通過百度搜索到我的文章了。

                        例如:現在出了不僅僅是博客園,還有其他的:新浪,博客等,還有一下不知名的博客園之類的,因為他們沒有用戶,沒有人發文章咋辦?

                                 所以就爬取別人的網站,來發表到自己的內容上。

       防爬蟲:怎么防止爬蟲,像這種公開的博客園,無法防止爬蟲,因為博客園需要爬蟲來做推廣!所以我加了防偽標志-----博客園老牛大講堂

                     不管這篇文章被爬蟲了多少遍,我的博客園老牛大講堂永遠都會在,你們可以查看我的原文章了!

      常見的爬蟲技術:

                     現在網路上出了很多爬蟲技術:八爪魚神箭手,這些都做的比較成熟了,好像是免費的。可以使用(我沒用過,不介紹了)

                    我介紹的是爬蟲常見的技術之一:jsoup爬蟲

2、jsoup爬蟲優缺點?---博客園老牛大講堂

       缺點:1,抓網頁有點慢,2、抓靜態網頁比較好。如果里面涉及到一些動態的網頁,可能抓不出來。

                缺點太多了,現在主流一般不用jsoup,因為現在動態網頁居多,jsoup爬取動態網頁效果太差。所以不用

                如果使用,也一般jsoup技術和其他技術一塊來用,方便爬取網頁。

3、怎么爬蟲?---博客園老牛大講堂

   例子:這里用了jsoup爬蟲。這里的用戶名,密碼因為涉及到其他的,所以你懂的。

 

 這里的例子需要一個jar包:jsoup-1.8.1  自己下。里面用的是jsoup爬蟲

   

1)爬取網頁----博客園老牛大講堂

不需要登陸就能獲取的網頁數據。

public class A {
    // 返會一個網頁的所有代碼
    public String getjsoup() {//返回一個網頁的所有代碼,get獲取內容的方式。
 Document doc = Jsoup .connect("http://www.baidu.com") .timeout(1000).get();
          return doc.text();
    }
   public static void main(string[] args){
     System.out.println(
getjsoup());

  }
}

 2)模擬登陸----博客園老牛大講堂

   需要登陸的網頁,獲取后面的內容

    模擬登陸比較常見,例如:有用戶名和密碼想登陸爬取咋辦?

  首先獲取網頁的cook是多少才行。

public class A {
    // 返會一個網頁的所有代碼
    public String getjsoup() {//返回一個網頁的所有代碼,get獲取內容的方式。
      //得到session ,進行模擬登陸,(如果有驗證碼,我就不知道了)。--博客園老牛大講堂 Connection.Response res 得到= Jsoup.connect( "http://*******************").data( "userName", "2012000111033", "password", "123456789")//進行模擬登陸 .method(Connection.Method.POST).timeout(10000).execute();//設置請求時間和登陸用的用戶名,密碼。 Document doc = res.parse();  //根據session進行爬蟲--博客園老牛大講堂
       //注釋:不是所有網站他們都需要cook,也不是所有的網站cook都是iPlanetDirectoryPro。每個網站cook都不一樣。
       //想要知道網站的cook,自己百度吧!--太基礎,不介紹了 String sessionId = res.cookie("AAA");//不同網站網址的cookie不一樣。而且每次訪問都不一樣,所以不要想着把session保存起來。 String se = res.cookie("BBB");//cook怎么查看呢?看下面

System.out.println(
sessionId);
       
System.out.println(se);


            Document objectDoc = Jsoup.connect( "http://www.****.com").cookie(//里面的網址(就是你想要爬取的網頁) "AAA", sessionId).cookie("BBB", se) .timeout(10000).post();//設置請求的時間(這里設置的請求時間是10秒)
           return  objectDoc .text();
 
         
   }    
  
    public static void main(string[] args){
     System.out.println(getjsoup());

  }

}

 cook的查看:F12-》application——》cookies查看。----博客園老牛大講堂

3)假設你已經在控制台輸出了自己想要的網頁,那么下面就看具體網頁的分析了

 屬性太多,根據不同的網站,獲取方式也多種多樣,之后就能得到想要的數據了

例如:

 

Element htmlElement = objectDoc.getElementsByClass("table_kc").get(0);//得到class為table_kc的第一個對象
Elements trElements = htmlElement.getElementsByTag("tr");//得到tr標簽的所有對象

Elements divElments = trElements.get(i) .getElementsByAttributeValue("align", "left");//得到第i個標簽的style為:align:left的元素,根據class進行得到對象。

4)我獲取的一個網頁數據(一個網頁下表格里面的數據)----博客園老牛大講堂
網頁數據不同,獲取方式也不同。
public class A {
    // 返會一個list對象
    public List<String> getPersonInfo() {//返回一個list對象
        List<String> list = new ArrayList<String>();
        try {
      //得到session ,進行模擬登陸,(如果有驗證碼,我就不知道了)。--博客園老牛大講堂 Connection.Response res 得到
= Jsoup.connect( "http://**********").data( "userName", "2012000111033", "password", "123456789")//進行模擬登陸 .method(Connection.Method.POST).timeout(10000).execute();//設置請求時間和登陸用的用戶名,密碼。 Document doc = res.parse(); //根據session進行爬蟲--博客園老牛大講堂
        //注釋:不是所有網站他們都需要cook,也不是所有的網站cook都是iPlanetDirectoryPro。每個網站cook都不一樣。
       //想要知道網站的cook,自己百度吧!--太基礎,不介紹了
String sessionId = res.cookie("AAA");//不同網站網址的cookie不一樣。而且每次訪問都不一樣,所以不要想着把session保存起來。 String se = res.cookie("BBB"); Document objectDoc = Jsoup.connect( "http://www.****.com").cookie(//里面的網址(就是你想要爬取的網頁) "AAA", sessionId).cookie("BBB", se) .timeout(10000).post();//設置請求的時間(這里設置的請求時間是10秒) Element htmlElement = objectDoc.getElementsByClass("table_kc").get(0);//得到class為table_kc的第一個對象 Elements trElements = htmlElement.getElementsByTag("tr");//得到tr標簽的對象 System.out.println(trElements.size());//輸出多少個tr標簽 for (int i = 1; i < trElements.size(); i++) { Elements divElments = trElements.get(i) .getElementsByAttributeValue("align", "left");//根據class進行得到對象。 for (int j = 0; j < trElements.size(); j++) { Element d = divElments.get(j);//獲取每一個對象 list.add(d.text());//得到這個對象對應的值 } } } catch (IOException e) { e.printStackTrace(); } return list; }

}

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM