java 調用 phantomjs

2014-11-21 13:55 2034人閱讀評論(2) 收藏舉報

分類：

phantomjs（2）

日前有采集需求，當我把所有的對應頁面的鏈接都拿到手，准備開始根據鏈接去采集（寫爬蟲爬取）對應的終端頁的時候，發覺用程序獲取到的數據根本沒有對應的內容，可是我的瀏覽器看到的內容明明是有的，於是瀏覽器查看源代碼也發覺沒有，此時想起該網頁應該是ajax加載的。不知道ajax的小朋友可以去學下web開發啦。

采集ajax生成的內容手段不外乎兩種。一種是通過http觀察加載頁面時候的請求，然后我們模仿該請求去得到對應的內容，第二種則是模仿瀏覽器行為去渲染這個頁面得到內容。我在這里決定采用第二種方式，之前一直玩webkit，不過一直要加載頁面太浪費資源了，此時了解到有一個好玩的玩意phantomjs，這是個可以用命令行來操作webkit的玩意，然后也可以直接在里面用js的api去操作頁面（當然，我這邊比較簡單就懶得用了）。

下載完phantomjs之后直接解壓就可以使用，然后在path目錄加入phantomjs的路徑（以便直接在命令行就可以執行phantomjs命令）。

接下來要完成個代碼，一個是用phantomjs去獲取頁面（采用js編寫行為），一個是采用java去調用phantomjs來達到獲取內容的作用，接下來直接貼代碼。

[javascript] view plain copy

//codes.js
system = require('system')
address = system.args[1];//獲得命令行第二個參數接下來會用到
//console.log('Loading a web page');
var page = require('webpage').create();
var url = address;
//console.log(url);
page.open(url, function (status) {
//Page is loaded!
if (status !== 'success') {
console.log('Unable to post!');
} else {
//console.log(page.content);
//var title = page.evaluate(function() {
// return document.title;//示范下如何使用頁面的jsapi去操作頁面的 www.oicqzone.com
// });
//console.log(title);
console.log(page.content);
}
phantom.exit();
});

上述的js代碼估計應該沒幾個看不懂的。。。

接下來貼java代碼！

[java] view plain copy

import org.apache.commons.io.IOUtils;
import java.io.*;
/**
* Created with IntelliJ IDEA.
* User: lsz
* Date: 14-4-22
* Time: 下午1:17
* utils for http
*/
public class HttpUtils {
public static String getAjaxCotnent(String url) throws IOException {
Runtime rt = Runtime.getRuntime();
Process p = rt.exec("phantomjs.exe c:/phantomjs/codes.js "+url);//這里我的codes.js是保存在c盤下面的phantomjs目錄
InputStream is = p.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is));
StringBuffer sbf = new StringBuffer();
String tmp = "";
while((tmp = br.readLine())!=null){
sbf.append(tmp);
}
//System.out.println(sbf.toString());
return sbf.toString();
}
public static void main(String[] args) throws IOException {
getAjaxCotnent("http://www.oicqzone.com");
}
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java調用phantomjs采集ajax加載生成的網頁 PhantomJS PhantomJS WebDriver+PhantomJs爬蟲運用（Java） Java實現網頁截屏功能（基於phantomJs） [Selenium+Java] Selenium with HTMLUnit Driver & PhantomJS selenium phantomjs java無界面瀏覽器環境搭建 selenium phantomjs java無界面瀏覽器環境搭建 springboot應用docker部署調用phantomjs出現permission denied修復方法安裝PhantomJS