開源的49款Java 網絡爬蟲軟件

本文轉載自查看原文 2016-06-04 16:46 1650 數據抓取實戰

搜索引擎 Nutch

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 Nutch的創始人是Doug Cutting，他同時也是Lucene、Hadoop和Avro開源項目的創始人。 Nutch誕生於2002年8月，是Apache旗下的一個用Java實現...

JAVA爬蟲 WebCollector

爬蟲簡介： WebCollector是一個無須配置、便於二次開發的JAVA爬蟲框架（內核），它提供精簡的的API，只需少量代碼即可實現一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。爬蟲內核： WebCollector致力於維護一個穩...

垂直爬蟲 WebMagic

webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現一個爬蟲。以下是爬取oschina博客的一段代碼： Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*"))....

web爬蟲 Heritrix

Heritrix是一個開源，可擴展的web爬蟲項目。用戶可以使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。 Heritrix是一個爬蟲框架，其組織結...

Java網頁爬蟲 JSpider

JSpider是一個用Java實現的WebSpider，JSpider的執行格式如下： jspider [URL] [ConfigName] URL一定要加上協議名稱，如：http://，否則會報錯。如果省掉ConfigName，則采用默認配置。 JSpider 的行為是由配置文件具體配置的，比如采用什么插件，結果存儲方..

Java網絡蜘蛛/網絡爬蟲 Spiderman

Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛，它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取並解析為自己所需要的業務數據。最新提示：歡迎來體驗最新版本Spiderman2，http://git.oschina.net/l-weiw...

Java多線程Web爬蟲 Crawler4j

Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。可以利用它來構建一個多線程的Web爬蟲。示例代碼： import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr...

Web-Harvest

Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。

網頁抓取工具 PlayFish

playfish是一個采用java技術，綜合應用多個開源java組件實現的網頁抓取工具，通過XML配置文件實現高度可定制性與可擴展性的網頁抓取工具應用開源jar包包括httpclient(內容讀取),dom4j（配置文件解析）,jericho（html解析），已經在 war包的lib下。這個項...

Web爬蟲程序 CrawlZilla

crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體，有了它，你就不用依靠商業公司的收尋引擎，也不用再煩惱公司內部網站資料索引的問題由 nutch 專案為核心，並整合更多相關套件，並開發設計安裝與管理UI，讓使用者更方便上手。 crawlzilla 除了爬取基本...

網頁爬蟲 YaCy

YaCy基於p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基於p2p Web索引網絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等

基於Apache Nutch和Htmlunit的擴展實現AJAX頁面爬蟲抓取解析插件 nutch-htmlunit

Nutch Htmlunit Plugin 重要說明：當前項目基於Nutch 1.X系列已停止更新維護，轉向Nutch 2.x系列版本的新項目：http://www.oschina.net/p/nutch-ajax 項目簡介基於Apache Nutch 1.8和Htmlunit組件，實現對於AJAX加載類型頁面的完整頁面內容抓取解析。 Ac..

網頁爬蟲 Ex-Crawler

Ex-Crawler 是一個網頁爬蟲，采用 Java 開發，該項目分成兩部分，一個是守護進程，另外一個是靈活可配置的 Web 爬蟲。使用數據庫存儲網頁信息。

web 搜索和爬蟲 Leopdo

用JAVA編寫的web 搜索和爬蟲，包括全文和分類垂直搜索，以及分詞系統

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【轉】44款Java 網絡爬蟲開源軟件 49 款開源辦公軟件 83款網絡爬蟲開源軟件共有49款Windows GUI開發框架開源軟件【轉】共有49款Windows GUI開發框架開源軟件【轉】 26款網絡會議/視頻會議開源軟件 8款開源聊天軟件 8款開源聊天軟件 [原創]一款基於Reactor線程模型的java網絡爬蟲框架 33款可用來抓數據的開源爬蟲軟件工具