爬蟲工具簡單整理


1、crawlzilla

crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件,有了它,你就不用依靠商業公司的搜索引擎,也不用再煩惱公司內部網站資料索引的問題。

由 nutch 專案為核心,並整合更多相關套件,並卡發設計安裝與管理UI,讓使用者更方便上手。

crawlzilla 除了爬取基本的 html 外,還能分析網頁上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網頁搜索引擎,而是網站的完整資料索引庫。

擁有中文分詞能力,讓你的搜索更精准。

crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜索平台。

  • 授權協議: Apache License 2
  • 開發語言: Java JavaScript SHELL
  • 操作系統: Linux
  • 項目主頁: https://github.com/shunfa/crawlzilla
  • 下載地址: http://sourceforge.net/projects/crawlzilla/
  • 特點:安裝簡易,擁有中文分詞功能

2、Heritrix

Heritrix 是一個由 java 開發的、開源的網絡爬蟲,用戶可以使用它來從網上抓取想要的資源。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。

Heritrix采用的是模塊化的設計,各個模塊由一個控制器類(CrawlController類)來協調,控制器是整體的核心。

  • 代碼托管:https://github.com/internetarchive/heritrix3
  • 授權協議: Apache
  • 開發語言: Java
  • 操作系統: 跨平台
  • 特點:嚴格遵照robots文件的排除指示和META robots標簽

3、webmagic

webmagic的是一個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。

web magic 爬蟲

webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,並支持自動重試、自定義UA/cookie等功能。

網路爬蟲-magic

webmagic包含強大的頁面抽取功能,開發者可以便捷的使用css selector、xpath和正則表達式進行鏈接和內容的提取,支持多個選擇器鏈式調用。

webmagic的使用文檔:http://webmagic.io/docs/

查看源代碼:http://git.oschina.net/flashsword20/webmagic

  • 授權協議: Apache
  • 開發語言: Java
  • 操作系統: 跨平台
  • 特點:功能覆蓋整個爬蟲生命周期,使用Xpath和正則表達式進行鏈接和內容的提取。
  • 備注:這是一款國產開源軟件,由 黃億華貢獻

4、ThinkUp

ThinkUp 是一個可以采集推特,facebook等社交網絡數據的社會媒體視角引擎。通過采集個人的社交網絡賬號中的數據,對其存檔以及處理的交互分析工具,並將數據圖形化以便更直觀的查看。

網絡爬蟲-thinkup

網路爬蟲-thinkup-map

  • 授權協議: GPL
  • 開發語言: PHP
  • 操作系統: 跨平台
  • github源碼:https://github.com/ThinkUpLLC/ThinkUp

火車頭: 功能全,歷史悠久,但配置太過復雜,且功能眾多很難掌握,但確實功能很全面,是通用采集軟件,簡單的頁面什么都可以采集。

網絡礦工: 推出時間不長,略微不夠穩定,但其提供的數據采集和數據加工何為一體的功能很不錯。

有訊軟件:實際上它並不是提供軟件,而是提供采集服務。你只要告訴他們要采集哪里的數據,和要采集的具體內容,其它什么都不需要懂,也不需要做,他們就會把采集到的數據提供給你們,而且還可以滿足你的任何數據處理要求。

網絡神采:同樣也是一款歷史悠久的軟件,采集方面也很強大,其他方面沒有太深的影響。

狂人、三人行,未用過,但據說采集論壇和博客是很強悍的,采集其他類型的數據和稍微復雜點的數據就不行了。

gooseeker:好像是提供在線采集的,沒用過,它們的網站看不懂。但據說也還不錯。

個人覺得:如果你是采集純靜態頁面,且數據結構不是很復雜的那種,也懂點技術的,那就用火車頭吧。

原文:http://blog.sina.com.cn/s/blog_15b9403ba0102wosv.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM