java調用phantomjs采集ajax加載生成的網頁


java調用phantomjs采集ajax加載生成的網頁

日前有采集需求,當我把所有的對應頁面的鏈接都拿到手,准備開始根據鏈接去采集(寫爬蟲爬取)對應的終端頁的時候,發覺用程序獲取到的數據根本沒有對應的內容,可是我的瀏覽器看到的內容明明是有的,於是瀏覽器查看源代碼也發覺沒有,此時想起該網頁應該是ajax加載的。不知道ajax的小朋友可以去學下web開發啦。
    采集ajax生成的內容手段不外乎兩種。一種是通過http觀察加載頁面時候的請求,然后我們模仿該請求去得到對應的內容,第二種則是模仿瀏覽器行為去渲染這個頁面得到內容。我在這里決定采用第二種方式,之前一直玩webkit,不過一直要加載頁面太浪費資源了,此時了解到有一個好玩的玩意phantomjs,這是個可以用命令行來操作webkit的玩意,然后也可以直接在里面用js的api去操作頁面(當然,我這邊比較簡單就懶得用了)。
     下載完phantomjs之后直接解壓就可以使用,然后在path目錄加入phantomjs的路徑(以便直接在命令行就可以執行phantomjs命令)。
    接下來要完成個代碼,一個是用phantomjs去獲取頁面(采用js編寫行為),一個是采用java去調用phantomjs來達到獲取內容的作用,接下來直接貼代碼。
 
  1. //codes.js   
  2. system = require('system')   
  3. address = system.args[1];//獲得命令行第二個參數 接下來會用到   
  4. //console.log('Loading a web page');   
  5. var page = require('webpage').create();   
  6. var url = address;   
  7. //console.log(url);   
  8. page.open(url, function (status) {   
  9.     //Page is loaded!   
  10.     if (status !== 'success') {   
  11.         console.log('Unable to post!');   
  12.     } else {   
  13.         //console.log(page.content);   
  14.         //var title = page.evaluate(function() {   
  15.         //  return document.title;//示范下如何使用頁面的jsapi去操作頁面的  www.oicqzone.com 
  16.         //  });   
  17.         //console.log(title);   
  18.            
  19.         console.log(page.content);   
  20.     }      
  21.     phantom.exit();   
  22. });    
 
 
上述的js代碼估計應該沒幾個看不懂的。。。
 
接下來貼java代碼!
 
  1. import org.apache.commons.io.IOUtils;   
  2.    
  3. import java.io.*;   
  4.    
  5. /**  
  6.  * Created with IntelliJ IDEA.  
  7.  * User: lsz  
  8.  * Date: 14-4-22  
  9.  * Time: 下午1:17  
  10.  * utils for http  
  11.  */   
  12. public class HttpUtils {   
  13.     public static String getAjaxCotnent(String url) throws IOException {   
  14.         Runtime rt = Runtime.getRuntime();   
  15.         Process p = rt.exec("phantomjs.exe c:/phantomjs/codes.js "+url);//這里我的codes.js是保存在c盤下面的phantomjs目錄   
  16.         InputStream is = p.getInputStream();   
  17.         BufferedReader br = new BufferedReader(new InputStreamReader(is));   
  18.         StringBuffer sbf = new StringBuffer();   
  19.         String tmp = "";   
  20.         while((tmp = br.readLine())!=null){   
  21.             sbf.append(tmp);   
  22.         }   
  23.         //System.out.println(sbf.toString());   
  24.         return sbf.toString();   
  25.     }   
  26.    
  27.     public static void main(String[] args) throws IOException {   
  28.         getAjaxCotnent("http://www.oicqzone.com");   
  29.     }   
  30. }   
 
 
其實原理很簡單,就是通過進程間通信用java調用phantomjs這個組件去請求渲染頁面,不過這種做法因為每次都要重新啟動phantomjs進程,所以比較慢,還有另外一種直接用phantomjs加載頁面后,把內容post給我們自定義的一個http后端接收數據,會更快一點。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM