83款網絡爬蟲開源軟件

本文轉載自查看原文 2014-07-25 23:29 98569

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&

搜索引擎 Nutch

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。盡管Web搜索是漫游Internet的基本要求, 但是現有web搜索引擎的數目卻在下降. 並且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web... 更多Nutch信息

最近更新：【每日一博】Nutch 的 url 的正則過濾機制研究發布於 20天前

網站爬蟲 Grub Next Generation

Grub Next Generation 是一個分布式的網頁爬蟲系統，包含客戶端和服務器可以用來維護網頁的索引。更多Grub Next Generation信息

最近更新：Grub Next Generation 1.0 發布發布於 3年前

網站數據采集軟件網絡礦工采集器（原soukey采摘）

Soukey采摘網站數據采集軟件是一款基於.Net平台的開源軟件，也是網站數據采集軟件類型中唯一一款開源軟件。盡管Soukey采摘開源，但並不會影響軟件功能的提供，甚至要比一些商用軟件的功能還要豐富。Soukey采摘當前提供的主要功能如下： 1. 多任務多線... 更多網絡礦工采集器（原soukey采摘）信息

PHP的Web爬蟲和搜索引擎 PhpDig

PhpDig是一個采用PHP開發的Web爬蟲和搜索引擎。通過對動態和靜態頁面進行索引建立一個詞匯表。當搜索查詢時，它將按一定的排序規則顯示包含關鍵字的搜索結果頁面。PhpDig包含一個模板系統並能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用於專業化更... 更多PhpDig信息

網站內容采集器 Snoopy

Snoopy是一個強大的網站內容采集器（爬蟲）。提供獲取網頁內容，提交表單等功能。更多Snoopy信息

Java網頁爬蟲 JSpider

JSpider是一個用Java實現的WebSpider，JSpider的執行格式如下： jspider [URL] [ConfigName] URL一定要加上協議名稱，如：http://，否則會報錯。如果省掉ConfigName，則采用默認配置。 JSpider 的行為是由配置文件具體配置的，比如采用什么插件，結果存儲方... 更多JSpider信息

網絡爬蟲程序 NWebCrawler

NWebCrawler是一款開源的C#網絡爬蟲程序更多NWebCrawler信息

web爬蟲 Heritrix

Heritrix是一個開源，可擴展的web爬蟲項目。用戶可以使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。 Heritrix是一個爬蟲框架，其組織結... 更多Heritrix信息

Web爬蟲框架 Scrapy

Scrapy 是一套基於基於Twisted的異步處理框架，純python實現的爬蟲框架，用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便～更多Scrapy信息

最近更新：使用 Scrapy 建立一個網站抓取器發布於 6個月前

垂直爬蟲 webmagic

webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現一個爬蟲。以下是爬取oschina博客的一段代碼： Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).t... 更多webmagic信息

最近更新：WebMagic 0.5.2發布，Java爬蟲框架發布於 1個月前

OpenWebSpider

OpenWebSpider是一個開源多線程Web Spider（robot：機器人，crawler：爬蟲)和包含許多有趣功能的搜索引擎。更多OpenWebSpider信息

Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。可以利用它來構建一個多線程的Web爬蟲。示例代碼： import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息

網頁抓取／信息提取軟件 MetaSeeker

網頁抓取/信息提取/數據抽取軟件工具包MetaSeeker (GooSeeker) V4.11.2正式發布，在線版免費下載和使用，源代碼可閱讀。自推出以來，深受喜愛，主要應用領域：垂直搜索（Vertical Search）：也稱為專業搜索，高速、海量和精確抓取是定題網絡爬蟲DataScrap... 更多MetaSeeker信息

Java網絡蜘蛛/網絡爬蟲 Spiderman

Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛，它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取並解析為自己所需要的業務數據。主要特點 * 靈活、可擴展性強，微內核+插件式架構，Spiderman提供了多達 ... 更多Spiderman信息

網頁爬蟲 Methanol

Methanol 是一個模塊化的可定制的網頁爬蟲軟件，主要的優點是速度快。更多Methanol信息

網絡爬蟲/網絡蜘蛛 larbin

larbin是一種開源的網絡爬蟲/網絡蜘蛛，由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取，最后為搜索引擎提供廣泛的數據來源。Larbin只是一個爬蟲，也就是說larbin只抓取網頁，至於如何parse的事情則由用戶自己... 更多larbin信息

爬蟲小新 Sinawler

國內第一個針對微博數據的爬蟲程序！原名“新浪微博爬蟲”。登錄后，可以指定用戶為起點，以該用戶的關注人、粉絲為線索，延人脈關系搜集用戶基本信息、微博數據、評論數據。該應用獲取的數據可作為科研、與新浪微博相關的研發等的數據支持，但請勿用於商... 更多Sinawler信息

【免費】死鏈接檢查軟件 Xenu

Xenu Link Sleuth 也許是你所見過的最小但功能最強大的檢查網站死鏈接的軟件了。你可以打開一個本地網頁文件來檢查它的鏈接，也可以輸入任何網址來檢查。它可以分別列出網站的活鏈接以及死鏈接，連轉向鏈接它都分析得一清二楚；支持多線程，可以把檢查結... 更多Xenu信息

Web-Harvest

Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。更多Web-Harvest信息

網頁抓取工具 PlayFish

playfish 是一個采用java技術，綜合應用多個開源java組件實現的網頁抓取工具，通過XML配置文件實現高度可定制性與可擴展性的網頁抓取工具應用開源jar包包括httpclient(內容讀取),dom4j（配置文件解析）,jericho（html解析），已經在 war包的lib下。這個

易得網絡數據采集系統

本系統采用主流編程語言php和mysql數據庫，您可以通過自定義采集規則，或者到我的網站下載共享的規則，針對網站或者網站群，采集您所需的數據，您也可以向所有人共享您的采集規則哦。通過數據瀏覽和編輯器，編輯您所采集的數據。本系統所有代碼完全開源，... 更多易得網絡數據采集系統信息

網頁爬蟲 YaCy

YaCy基於p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基於p2p Web索引網絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等. 更多YaCy信息

最近更新： YaCy 1.4 發布，分布式Web搜索引擎發布於 1年前

Web爬蟲框架 Smart and Simple Web Crawler

Smart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數組開始，提供兩種遍歷模式：最大迭代和最大深度。可以設置過濾器限制爬回來的鏈接，默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE... 更多Smart and Simple Web Crawler信息

Web爬蟲程序 CrawlZilla

crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體，有了它，你就不用依靠商業公司的收尋引擎，也不用再煩惱公司內部網站資料索引的問題由 nutch 專案為核心，並整合更多相關套件，並開發設計安裝與管理UI，讓使用者更方便上手。 crawlzilla 除了爬取基本... 更多CrawlZilla信息

簡易HTTP爬蟲 HttpBot

HttpBot 是對 java.net.HttpURLConnection類的簡單封裝，可以方便的獲取網頁內容，並且自動管理session，自動處理301重定向等。雖然不能像HttpClient那樣強大，支持完整的Http協議，但卻非常地靈活，可以滿足我目前所有的相關需求。... 更多HttpBot信息

新聞采集器 NZBGet

NZBGet是一個新聞采集器，其中從新聞組下載的資料格式為nzb文件。它可用於單機和服務器/客戶端模式。在獨立模式中通過nzb文件作為參數的命令行來下載文件。服務器和客戶端都只有一個可執行文件”nzbget”。功能和特點控制台界面，使用純文本，彩色文字或... 更多NZBGet信息

網頁爬蟲 Ex-Crawler

Ex-Crawler 是一個網頁爬蟲，采用 Java 開發，該項目分成兩部分，一個是守護進程，另外一個是靈活可配置的 Web 爬蟲。使用數據庫存儲網頁信息。更多Ex-Crawler信息

招聘信息爬蟲 JobHunter

JobHunter旨在自動地從一些大型站點來獲取招聘信息，如chinahr,51job,zhaopin等等。JobHunter 搜索每個工作項目的郵件地址，自動地向這一郵件地址發送申請文本。更多JobHunter信息

網頁爬蟲框架 hispider

HiSpider is a fast and high performance spider with high speed 嚴格說只能是一個spider系統的框架, 沒有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務, 支持N機分布式下載, 支持網站定向下載(需要配置hispiderd.ini whitelist). 特征... 更多hispider信息

Perl爬蟲程序 Combine

Combine 是一個用Perl語言開發的開放的可擴展的互聯網資源爬蟲程序。更多Combine信息

web爬蟲 jcrawl

jcrawl是一款小巧性能優良的的web爬蟲,它可以從網頁抓取各種類型的文件,基於用戶定義的符號,比如email,qq. 更多jcrawl信息

分布式網頁爬蟲 Ebot

Ebot 是一個用 ErLang 語言開發的可伸縮的分布式網頁爬蟲，URLs 被保存在數據庫中可通過 RESTful 的 HTTP 請求來查詢。更多Ebot信息

多線程web爬蟲程序 spidernet

spidernet是一個以遞歸樹為模型的多線程web爬蟲程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲於sqlite數據文件. 源碼中TODO:標記描述了未完成功能, 希望提交你的代碼.... 更多spidernet信息

ItSucks

ItSucks是一個java web spider（web機器人，爬蟲）開源項目。支持通過下載模板和正則表達式來定義下載規則。提供一個swing GUI操作界面。更多ItSucks信息

網頁搜索爬蟲 BlueLeech

BlueLeech是一個開源程序，它從指定的URL開始，搜索所有可用的鏈接，以及鏈接之上的鏈接。它在搜索的同時可以下載遇到的鏈接所指向的所有的或預定義的范圍的內容。更多BlueLeech信息

URL監控腳本 urlwatch

urlwatch 是一個用來監控指定的URL地址的 Python 腳本，一旦指定的 URL 內容有變化時候將通過郵件方式通知到。基本功能配置簡單，通過文本文件來指定URL，一行一個URL地址； Easily hackable (clean Python implementation) Can run as a cronjob and m... 更多urlwatch信息

最近更新： urlwatch 1.8 發布發布於 4年前

Methabot

Methabot 是一個經過速度優化的高可配置的 WEB、FTP、本地文件系統的爬蟲軟件。更多Methabot信息

web 搜索和爬蟲 Leopdo

用JAVA編寫的web 搜索和爬蟲，包括全文和分類垂直搜索，以及分詞系統更多Leopdo信息

Web爬蟲工具 NCrawler

NCrawler 是一個Web Crawler 工具，它可以讓開發人員很輕松的發展出具有Web Crawler 能力的應用程式，並且具有可以延展的能力，讓開發人員可以擴充它的功能，以支援其他類型的資源（例如PDF /Word/Excel 等檔案或其他資料來源）。 NCrawler 使用多執行緒（... 更多NCrawler信息

Ajax爬蟲和測試 Crawljax

Crawljax: java編寫，開放源代碼。 Crawljax 是一個 Java 的工具用於自動化的爬取和測試現在的 Ajax Web 應用。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 開源的49款Java 網絡爬蟲軟件【轉】44款Java 網絡爬蟲開源軟件 26款網絡會議/視頻會議開源軟件 8款開源聊天軟件 8款開源聊天軟件 33款可用來抓數據的開源爬蟲軟件工具 49 款開源辦公軟件開源網絡爬蟲匯總開源網絡爬蟲匯總 [轉]26款網絡會議/視頻會議開源軟件