Node.js爬蟲--網頁請求模塊

本文轉載自查看原文 2012-09-22 10:28 33680 javascript

注：如您下載最新的nodegrass版本，由於部分方法已經更新，本文的例子已經不再適應，詳細請查看開源地址中的例子。
一、為什么我要寫這樣一個模塊？

源於筆者想使用Node.js寫一個爬蟲，雖然Node.js官方API提供的請求遠程資源的方法已經非常簡便，具體參考

http://nodejs.org/api/http.html 其中對於Http的請求提供了，http.get(options, callback)和http.request(options, callback)兩個方法，

看方法便知，get方法用於get方式的請求，而request方法提供更多的參數，例如其它請求方式，請求主機的端口等等。對於Https的請求於Http類似。一個最簡單的例子：

1 var https = require('https');
2
3 https.get('https://encrypted.google.com/', function(res) {
4   console.log("statusCode: ", res.statusCode);
5   console.log("headers: ", res.headers);
6
7   res.on('data', function(d) {
8     process.stdout.write(d);
9   });
10
11 }).on('error', function(e) {
12   console.error(e);
13 });

對於以上代碼，我們無非就是想請求遠程主機，得到響應信息，例如響應狀態，響應頭，響應主體內容。其中get方法的第二個參數是一個回調函數，我們異步的獲取響應信息，然后，在該回調函數中，res對象又監聽data，on方法中第二個參數又是一個回調，而你得到d（你請求到的響應信息）后，很可能在對它進行操作的時候再次引入回調，一層層下去，最后就暈了。。。對於異步方式的編程，對於一些習慣同步方式寫代碼的同學是非常糾結的，當然國內外已經對此提供了一些非常優秀的同步類庫，例如老趙的Wind.js......好像有點扯遠了。其實，我們調用get最終要得到的無非就是響應信息，而不關心res.on這樣的監聽過程，因為太懶惰。不想每次都res.on('data',func)，於是誕生了今天我要介紹的nodegrass。

二、nodegrass請求資源，像Jquery的$.get(url,func)

一個最簡單的例子：

1 var nodegrass = require('nodegrass');
2 nodegrass.get("http://www.baidu.com", function(data,status,headers){
3     console.log(status);
4     console.log(headers);
5     console.log(data);
6 },'gbk').on('error', function(e) {
7     console.log("Got error: " + e.message);
8 });

咋一看，和官方原來的get沒啥區別，確實差不多=。=！只不過少了一層res.on('data',func)的事件監聽回調而已。不管你信不信，反正我看上去感覺舒服多了，第二個參數同樣是一個回調函數，其中的參數data是響應主體內容，status是響應狀態，headers是響應頭。得到響應內容，我們就可以對得到的資源提取任何我們感興趣的信息啦。當然這個例子中，只是簡單的打印的控制台而已。第三個參數是字符編碼，目前Node.js不支持gbk，這里nodegrass內部引用了iconv-lite進行了處理，所以，如果你請求的網頁編碼是gbk的，例如百度。只需加上這個參數就行了。

那么對於https的請求呢？如果是官方api，你得引入https模塊，但是請求的get方法等和http類似，於是nodegrass順便把他們整合在一塊了。看例子：

1 var nodegrass = require('nodegrass');
2 nodegrass.get("https://github.com", function(data,status,headers){
3     console.log(status);
4     console.log(headers);
5     console.log(data);
6 },'utf8').on('error', function(e) {
7     console.log("Got error: " + e.message);
8 });

nodegrass會根據url自動識別是http還是https，當然你的url必須得有，不能只寫www.baidu.com/而需要http://www.baidu.com/。

對於post的請求，nodegrass提供了post方法，看例子：

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token", function(data,status,headers){
     var accessToken = JSON.parse(data);
     var err = null;
     if(accessToken.error){
         err = accessToken;
    }
    callback(err,accessToken);
    },headers,options,'utf8');

以上是新浪微博Auth2.0請求accessToken的一部分，其中使用nodegrass的post請求access_token的api。

post方法相比get方法多提供了headers請求頭參數，options--post的數據，它們都是對象字面量的類型：

1 var headers = {
2         'Content-Type': 'application/x-www-form-urlencoded',
3         'Content-Length':data.length
4     };
5
6 var options = {
7              client_id : 'id',
8          client_secret : 'cs',
9          grant_type : 'authorization_code',
10          redirect_uri : 'your callback url',
11          code: acode
12     };

三、利用nodegrass做代理服務器？……**

看例子：

就這么簡單，當然代理服務器還有復雜的多，這個不算是，但至少你訪問本地8088端口，看到的是不是博客園的頁面呢？

nodegrass的開源地址：https://github.com/scottkiss/nodegrass

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Node.js之request模塊發送請求 Node.js 網頁爬蟲再進階，cheerio助力 Node.js 使用 soap 模塊請求 WebService 服務接口 Node.js(1) http和https模塊發送HTTP(S)請求 Node.js 爬蟲初探基於Node.js的爬蟲工具 – Node Crawler Node.js的http模塊 node.js 的 os 模塊 Node.js 模塊之【passport】 node.js(六) UTIL模塊