基於Node.js的爬蟲工具 – Node Crawler


Node Crawler的目標是成為最好的node.js爬蟲工具,目前已經停止維護。

 

我們來抓取光合新知博客tech欄目中的文章信息。
訪問http://dev.guanghe.tv/category/tech/,右鍵查看頁面源代碼,可以看到文章信息等內容,如下所示:

 

 

因為每篇文章都是一個<li>標簽,所以我們從頁面代碼的所有<li>中獲取文章的發布時間、鏈接和標題。

爬蟲代碼:

 

 

npm install安裝crawler模塊,node app.js運行程序。
你將會獲得如下內容(僅展示部分內容):

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM