剛剛在網上看到Cheerio,為服務器特別定制的,快速、靈活、實施的jQuery核心實現,適合各種Web爬蟲程序。
看了下,cheerio 是nodejs的抓取頁面模塊
於是決定先學習下nodejs了
Node.js采用的Javascript引擎是來自Google Chrome的V8
安裝
去Node.js 中文網 下載 Windows (x64) v5.3.0,點擊下載后的文件安裝
檢測nodejs是否安裝成功。打開cmd命令行 輸入 node - v 顯示當前版本號
檢查npm是否安裝。使用cmd命令行中鍵入 npm -v
新建文件test.js
var http = require("http"); http.createServer(function(request, response) { response.writeHead(200, {"Content-Type": "text/plain"}); response.write("test nodjs"); response.end(); }).listen(8899,"127.0.0.1"); console.log("nodejs start listen 8899 port!");
創建一個 HTTP 服務器,偵聽來自客戶端的請求,匿名參數中的request和response分別代表請求對象和響應對象
a. 全局方法require()是用來導入模塊的
b. http.createServer 是模塊的方法,創建並返回一個新的web server對象
c. 通過 http.listen() 方法,讓該 HTTP 服務器在特定端口監聽
(1)運行Node服務器,執行hello.js代碼
進入node.js command prompt命令窗口
用cd命令進入test.js所在的目錄
輸入命令node test.js

這個窗口要一直打開
(2)打開瀏覽器輸入127.0.0.1:8899

注意:設置端口要保證端口沒有被占用
使用 Node.js 時,不僅在實現一個應用,還實現了整個 HTTP 服務器
Node.js 應用的組成:
(1)引入 required 模塊
(2)創建服務器
(3)接收請求與響應請求
