1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&
-
搜索引擎 Nutch
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 盡管Web搜索是漫游Internet的基本要求, 但是現有web搜索引擎的數目卻在下降. 並且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web...
更多Nutch信息
最近更新:【每日一博】Nutch 的 url 的正則過濾機制研究 發布於 20天前
-
網站爬蟲 Grub Next Generation
Grub Next Generation 是一個分布式的網頁爬蟲系統,包含客戶端和服務器可以用來維護網頁的索引。
更多Grub Next Generation信息
最近更新:Grub Next Generation 1.0 發布 發布於 3年前
-
網站數據采集軟件 網絡礦工采集器(原soukey采摘)
Soukey采摘網站數據采集軟件是一款基於.Net平台的開源軟件,也是網站數據采集軟件類型中唯一一款開源軟件。盡管Soukey采摘開源,但並不會 影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。Soukey采摘當前提供的主要功能如下: 1. 多任務多線... 更多網絡礦工采集器(原soukey采摘)信息
-
PHP的Web爬蟲和搜索引擎 PhpDig
PhpDig是一個采用PHP開發的Web爬蟲和搜索引擎。通過對動態和靜態頁面進行索引建立一個詞匯表。當搜索查詢時,它將按一定的排序規則顯示包含關 鍵字的搜索結果頁面。PhpDig包含一個模板系統並能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用於專業化 更... 更多PhpDig信息
-
網站內容采集器 Snoopy
Snoopy是一個強大的網站內容采集器(爬蟲)。提供獲取網頁內容,提交表單等功能。 更多Snoopy信息
-
Java網頁爬蟲 JSpider
JSpider是一個用Java實現的WebSpider,JSpider的執行格式如下: jspider [URL] [ConfigName] URL一定要加上協議名稱,如:http://,否則會報錯。如果省掉ConfigName,則采用默認配置。 JSpider 的行為是由配置文件具體配置的,比如采用什么插件,結果存儲方... 更多JSpider信息
-
網絡爬蟲程序 NWebCrawler
NWebCrawler是一款開源的C#網絡爬蟲程序
更多NWebCrawler信息
-
web爬蟲 Heritrix
Heritrix是一個開源,可擴展的web爬蟲項目。用戶可以使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件 的排除指示和META robots標簽。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。 Heritrix是一個爬蟲框架,其組織結...
更多Heritrix信息
-
Web爬蟲框架 Scrapy
Scrapy 是一套基於基於Twisted的異步處理框架,純python實現的爬蟲框架,用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便~ 更多Scrapy信息
最近更新:使用 Scrapy 建立一個網站抓取器 發布於 6個月前
-
垂直爬蟲 webmagic
webmagic的是一個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。 以下是爬取oschina博客的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).t...
更多webmagic信息
最近更新:WebMagic 0.5.2發布,Java爬蟲框架 發布於 1個月前
-
OpenWebSpider
OpenWebSpider是一個開源多線程Web Spider(robot:機器人,crawler:爬蟲)和包含許多有趣功能的搜索引擎。
更多OpenWebSpider信息
-
Java多線程Web爬蟲 Crawler4j
Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。可以利用它來構建一個多線程的Web爬蟲。 示例代碼: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息
-
網頁抓取/信息提取軟件 MetaSeeker
網頁抓取/信息提取/數據抽取軟件工具包MetaSeeker (GooSeeker) V4.11.2正式發布,在線版免費下載和使用,源代碼可閱讀。自推出以來,深受喜愛,主要應用領域: 垂直搜索(Vertical Search):也稱為專業搜索,高速、海量和精確抓取是定題網絡爬蟲DataScrap... 更多MetaSeeker信息
-
Java網絡蜘蛛/網絡爬蟲 Spiderman
Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取並解析為自己所需要的業務數據。 主要特點 * 靈活、可擴展性強,微內核+插件式架構,Spiderman提供了多達 ... 更多Spiderman信息
-
網頁爬蟲 Methanol
Methanol 是一個模塊化的可定制的網頁爬蟲軟件,主要的優點是速度快。 更多Methanol信息
-
網絡爬蟲/網絡蜘蛛 larbin
larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數據來源。Larbin只是一個爬蟲,也就 是說larbin只抓取網頁,至於如何parse的事情則由用戶自己... 更多larbin信息
-
爬蟲小新 Sinawler
國內第一個針對微博數據的爬蟲程序!原名“新浪微博爬蟲”。 登錄后,可以指定用戶為起點,以該用戶的關注人、粉絲為線索,延人脈關系搜集用戶基本信息、微博數據、評論數據。 該應用獲取的數據可作為科研、與新浪微博相關的研發等的數據支持,但請勿用於商... 更多Sinawler信息
-
【免費】死鏈接檢查軟件 Xenu
Xenu Link Sleuth 也許是你所見過的最小但功能最強大的檢查網站死鏈接的軟件了。你可以打開一個本地網頁文件來檢查它的鏈接,也可以輸入任何網址來檢查。它可以分別列出網站 的活鏈接以及死鏈接,連轉向鏈接它都分析得一清二楚;支持多線程 ,可以把檢查結...
更多Xenu信息
-
Web-Harvest
Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。
更多Web-Harvest信息
-
網頁抓取工具 PlayFish
-
playfish 是一個采用java技術,綜合應用多個開源java組件實現的網頁抓取工具,通過XML配置文件實現高度可定制性與可擴展性的網頁抓取工 具 應用開源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經在 war包的lib下。 這個
-
易得網絡數據采集系統
本系統采用主流編程語言php和mysql數據庫,您可以通過自定義采集規則,或者到我的網站下載共享的規則,針對網站或者網站群,采集您所需的數據,您 也可以向所有人共享您的采集規則哦。通過數據瀏覽和編輯器,編輯您所采集的數據。 本系統所有代碼完全開源,...
更多易得網絡數據采集系統信息
-
網頁爬蟲 YaCy
YaCy基於p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基於p2p Web索引網絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等. 更多YaCy信息
最近更新: YaCy 1.4 發布,分布式Web搜索引擎 發布於 1年前
-
Web爬蟲框架 Smart and Simple Web Crawler
Smart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設置 過濾器限制爬回來的鏈接,默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE... 更多Smart and Simple Web Crawler信息
-
Web爬蟲程序 CrawlZilla
crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本...
更多CrawlZilla信息
-
簡易HTTP爬蟲 HttpBot
HttpBot 是對 java.net.HttpURLConnection類的簡單封裝,可以方便的獲取網頁內容,並且自動管理session,自動處理301重定向等。雖 然不能像HttpClient那樣強大,支持完整的Http協議,但卻非常地靈活,可以滿足我目前所有的相關需求。... 更多HttpBot信息
-
新聞采集器 NZBGet
NZBGet是一個新聞采集器,其中從新聞組下載的資料格式為nzb文件。它可用於單機和服務器/客戶端模式。在獨立模式中通過nzb文件作為參數的命令 行來下載文件。服務器和客戶端都只有一個可執行文件”nzbget”。 功能和特點 控制台界面,使用純文本,彩色文字或... 更多NZBGet信息
-
網頁爬蟲 Ex-Crawler
Ex-Crawler 是一個網頁爬蟲,采用 Java 開發,該項目分成兩部分,一個是守護進程,另外一個是靈活可配置的 Web 爬蟲。使用數據庫存儲網頁信息。 更多Ex-Crawler信息
-
招聘信息爬蟲 JobHunter
JobHunter旨在自動地從一些大型站點來獲取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每個工作項目的郵件地址,自動地向這一郵件地址發送申請文本。 更多JobHunter信息
-
網頁爬蟲框架 hispider
HiSpider is a fast and high performance spider with high speed 嚴格說只能是一個spider系統的框架, 沒有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務, 支持N機分布式下載, 支持網站定向下載(需要配置hispiderd.ini whitelist). 特征... 更多hispider信息
-
Perl爬蟲程序 Combine
Combine 是一個用Perl語言開發的開放的可擴展的互聯網資源爬蟲程序。 更多Combine信息
-
web爬蟲 jcrawl
jcrawl是一款小巧性能優良的的web爬蟲,它可以從網頁抓取各種類型的文件,基於用戶定義的符號,比如email,qq. 更多jcrawl信息
-
分布式網頁爬蟲 Ebot
Ebot 是一個用 ErLang 語言開發的可伸縮的分布式網頁爬蟲,URLs 被保存在數據庫中可通過 RESTful 的 HTTP 請求來查詢。
更多Ebot信息
-
多線程web爬蟲程序 spidernet
spidernet是一個以遞歸樹為模型的多線程web爬蟲程序, 支持text/html資源的獲取. 可以設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲於sqlite數據文件. 源碼中TODO:標記描述了未完成功能, 希望提交你的代碼....
更多spidernet信息
-
ItSucks
ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持通過下載模板和正則表達式來定義下載規則。提供一個swing GUI操作界面。
更多ItSucks信息
-
網頁搜索爬蟲 BlueLeech
BlueLeech是一個開源程序,它從指定的URL開始,搜索所有可用的鏈接,以及鏈接之上的鏈接。它在搜索的同時可以下載遇到的鏈接所指向的所有的或預定義的范圍的內容。 更多BlueLeech信息
-
URL監控腳本 urlwatch
urlwatch 是一個用來監控指定的URL地址的 Python 腳本,一旦指定的 URL 內容有變化時候將通過郵件方式通知到。 基本功能 配置簡單,通過文本文件來指定URL,一行一個URL地址; Easily hackable (clean Python implementation) Can run as a cronjob and m... 更多urlwatch信息
最近更新: urlwatch 1.8 發布 發布於 4年前
-
Methabot
Methabot 是一個經過速度優化的高可配置的 WEB、FTP、本地文件系統的爬蟲軟件。 更多Methabot信息
-
web 搜索和爬蟲 Leopdo
用JAVA編寫的web 搜索和爬蟲,包括全文和分類垂直搜索,以及分詞系統 更多Leopdo信息
-
Web爬蟲工具 NCrawler
NCrawler 是一個Web Crawler 工具,它可以讓開發人員很輕松的發展出具有Web Crawler 能力的應用程式,並且具有可以延展的能力,讓開發人員可以擴充它的功能,以支援其他類型的資源(例如PDF /Word/Excel 等檔案或其他資料來源)。 NCrawler 使用多執行緒(... 更多NCrawler信息
-
Ajax爬蟲和測試 Crawljax
Crawljax: java編寫,開放源代碼。 Crawljax 是一個 Java 的工具用於自動化的爬取和測試現在的 Ajax Web 應用。