1秒登錄
參考地址
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。 Nutch誕生於2002年8月,是Apache旗下的一個用Java實現...
JAVA爬蟲 WebCollector
爬蟲簡介: WebCollector是一個無須配置、便於二次開發的JAVA爬蟲框架(內核),它提供精簡的的API,只需少量代碼即可實現一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 爬蟲內核: WebCollector致力於維護一個穩...
webmagic的是一個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。 以下是爬取oschina博客的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*"))....
web爬蟲 Heritrix
Heritrix是一個開源,可擴展的web爬蟲項目。用戶可以使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。 Heritrix是一個爬蟲框架,其組織結...
JSpider是一個用Java實現的WebSpider,JSpider的執行格式如下: jspider [URL] [ConfigName] URL一定要加上協議名稱,如:http://,否則會報錯。如果省掉ConfigName,則采用默認配置。 JSpider 的行為是由配置文件具體配置的,比如采用什么插件,結果存儲方..
Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取並解析為自己所需要的業務數據。 最新提示:歡迎來體驗最新版本Spiderman2,http://git.oschina.net/l-weiw...
Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。可以利用它來構建一個多線程的Web爬蟲。 示例代碼: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr...
Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。
playfish是一個采用java技術,綜合應用多個開源java組件實現的網頁抓取工具,通過XML配置文件實現高度可定制性與可擴展性的網頁抓取工具 應用開源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經在 war包的lib下。 這個項...
crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本...
YaCy基於p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基於p2p Web索引網絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等
基於Apache Nutch和Htmlunit的擴展實現AJAX頁面爬蟲抓取解析插件 nutch-htmlunit
Nutch Htmlunit Plugin 重要說明: 當前項目基於Nutch 1.X系列已停止更新維護,轉向Nutch 2.x系列版本的新項目:http://www.oschina.net/p/nutch-ajax 項目簡介 基於Apache Nutch 1.8和Htmlunit組件,實現對於AJAX加載類型頁面的完整頁面內容抓取解析。 Ac..
網頁爬蟲 Ex-Crawler
Ex-Crawler 是一個網頁爬蟲,采用 Java 開發,該項目分成兩部分,一個是守護進程,另外一個是靈活可配置的 Web 爬蟲。使用數據庫存儲網頁信息。
HttpBot 是對 java.net.HttpURLConnection類的簡單封裝,可以方便的獲取網頁內容,並且自動管理session,自動處理301重定向等。雖然不能像HttpClient那樣強大,支持完整的Http協議,但卻非常地靈活,可以滿足我目前所有的相關需求。..
Smart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設置 過濾器限制爬回來的鏈接,默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE...
JobHunter旨在自動地從一些大型站點來獲取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每個工作項目的郵件地址,自動地向這一郵件地址發送申請文本。
jcrawl是一款小巧性能優良的的web爬蟲,它可以從網頁抓取各種類型的文件,基於用戶定義的符號,比如email,qq.
goodcrawler(GC) 網絡爬蟲 GC是一個垂直領域的爬蟲,同時也是一個拆箱即用的搜索引擎。 GC基於httpclient、htmlunit、jsoup、elasticsearch。 GC的特點: 1、具有DSL特性的模板。 2、分布式、可擴展。 3、辛虧有htmlunit,它能較好地支持javascript。 5、合...
ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持通過下載模板和正則表達式來定義下載規則。提供一個swing GUI操作界面。
用JAVA編寫的web 搜索和爬蟲,包括全文和分類垂直搜索,以及分詞系統
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。