【轉】44款Java 網絡爬蟲開源軟件


原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time

 

 

  • 極簡網絡爬蟲組件 WebFetch

    WebFetch 是無依賴極簡網頁爬取組件,能在移動設備上運行的微型爬蟲。 WebFetch 要達到的目標: 沒有第三方依賴jar包 減少內存使用 提高CPU利用率 加快網絡爬取速度 簡潔明了的api接口 能在Android設備上穩定運行 小巧靈活可以方便集成的網頁抓取組件 使用...更多WebFetch信息

  • 開源爬蟲框架 GuozhongCrawler

    guozhongCrawler的是一個無須配置、便於二次開發的爬蟲開源框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。其設計靈感來源 於多個爬蟲國內外爬蟲框架的總結。采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、...更多GuozhongCrawler信息

  • 網絡爬蟲 kamike.collect

    Another Simple Crawler 又一個網絡爬蟲,可以支持代理服務器的翻牆爬取。 1.數據存在mysql當中。 2.使用時,先修改web-inf/config.ini的數據鏈接相關信息,主要是數據庫名和用戶名和密碼 3.然后訪問http://127.0.0.1/fetch/install 鏈接,自動創建數據庫表...更多kamike.collect信息

  • 網頁版爬蟲 spider-web

    spider-web 是爬蟲的網頁版,使用xml配置,支持大部分頁面的爬取,支持爬取內容的保存、下載等。 其中配置文件格式為: <?xml version="1.0" encoding="UTF-8"?> <content> <url type="simple"><!-- simple/complex --> <url_head>http://www.oschina....更多spider-web信息

  • 丑牛迷你采集器

    丑牛迷你采集器是一款基於Java Swing開發的專業的網絡數據采集/信息挖掘處理軟件,通過靈活的配置,可以很輕松迅速地從 網頁上抓取結構化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發布到網站 架構說明 系統是基於 Swing+Spring-3.2.4+Mybatis-3...丑牛迷你采集器更多丑牛迷你采集器信息

  • JAVA爬蟲 WebCollector

    爬蟲簡介: WebCollector是一個無須配置、便於二次開發的JAVA爬蟲框架(內核),它提供精簡的的API,只需少量代碼即可實現一個功能強大的爬蟲。 爬蟲內核: WebCollector致力於維護一個穩定、可擴的爬蟲內核,便於開發者進行靈活的二次開發。內核具有很強的...更多WebCollector信息

  • Web 數據抽取客戶端 webStraktor

    webStraktor 是一個可編程的 WWW 數據抽取客戶端,提供一個腳本語言用於收集、抽取和存儲來自 Web 的數據,包括圖片。腳本語言使用正則表達式和 XPath 語法。標准輸出為 XML 格式,支持 ASCII、UTF-8 和 ISO885_1 。提供日志記錄和跟蹤信息。...webStraktor更多webStraktor信息

  • 網絡數據抓取框架 TinySpider

    TinySpider是一個基於Tiny HtmlParser的網絡數據抓取框架。 Maven引用坐標: <dependency> <groupId>org.tinygroup</groupId> <artifactId>org.tinygroup.spider</artifactId> <version>0.1.0-SNAPSHOT</version> </dependency> 網絡爬蟲,一般用在全文檢...更多TinySpider信息

  • 腳本編程語言 CrawlScript

    JAVA平台上的網絡爬蟲腳本語言 CrawlScript 網絡爬蟲即自動獲取網頁信息的一種程序,有很多JAVA、C++的網絡爬蟲類庫,但是在這些類庫的基礎上開發十分繁瑣,需要大量的代碼才可以完成一個簡單 的操作。鑒於這個問題,我們開發了CrawlScript這種腳本語言,程...更多CrawlScript信息

  • 基於Apache Nutch和Htmlunit的擴展實現AJAX頁面爬蟲抓取解析插件 nutch-htmlunit

    Nutch Htmlunit Plugin 項目簡介 基於Apache Nutch 1.8和Htmlunit組件,實現對於AJAX加載類型頁面的完整頁面內容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic HTML information from fetch pages including AJ...更多nutch-htmlunit信息

    最近更新: Nutch-Htmlunit 1.8 發布:基於Apache Nutch和Htmlunit的擴展實現AJAX頁面爬蟲抓取解析插件 發布於 10個月前

  • 網絡爬蟲 goodcrawler

    goodcrawler(GC) 網絡爬蟲 GC是一個垂直領域的爬蟲,同時也是一個拆箱即用的搜索引擎。 GC基於httpclient、htmlunit、jsoup、elasticsearch。 GC的特點: 1、具有DSL特性的模板。 2、分布式、可擴展。 3、辛虧有htmlunit,它能較好地支持javascript。 5、合...更多goodcrawler信息

  • 垂直爬蟲 WebMagic

    webmagic的是一個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現一個爬蟲。 以下是爬取oschina博客的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*"))....WebMagic更多WebMagic信息

    最近更新: WebMagic 0.5.2發布,Java爬蟲框架 發布於 1年前

  • 檢索爬蟲框架 heyDr

    heyDr是一款基於java的輕量級開源多線程垂直檢索爬蟲框架,遵循GNU GPL V3協議。 用戶可以通過heyDr構建自己的垂直資源爬蟲,用於搭建垂直搜索引擎前期的數據准備。heyDr更多heyDr信息

  • opm-server-mirror

    代碼更新 2009-11-25: 加入反爬蟲功能。直接Web訪問服務器將跳轉到Google。 使用方法 下載index.zip 解壓index.zip得到index.php 將index.php傳到支持php和cURL的國外服務器上 打開 http://www.your_website.com/your_folder_if_any/ ,如果頁面跳轉到Goo...更多opm-server-mirror信息

  • Java網絡蜘蛛/網絡爬蟲 Spiderman

    Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取並解析為自己所需要的業務數據。 主要特點 * 靈活、可擴展性強,微內核+插件式架構,Spiderman提供了多達 ...更多Spiderman信息

  • web 搜索和爬蟲 Leopdo

    用JAVA編寫的web 搜索和爬蟲,包括全文和分類垂直搜索,以及分詞系統更多Leopdo信息

  • OWASP AJAX Crawling Tool

    OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬蟲,java編寫,開放源代碼。更多OWASP AJAX Crawling Tool信息

  • Ajax爬蟲和測試 Crawljax

    Crawljax: java編寫,開放源代碼。 Crawljax 是一個 Java 的工具用於自動化的爬取和測試現在的 Ajax Web 應用。更多Crawljax信息

  • Common Crawl

    commoncrawl 源碼庫是用於 Hadoop 的自定義 InputFormat 配送實現。 Common Crawl 提供一個示例程序 BasicArcFileReaderSample.java (位於 org.commoncrawl.samples) 用來配置 InputFormat。...更多Common Crawl信息

  • 數據收集系統 Chukwa

    什么是 Chukwa,簡單的說它是一個數據收集系統,它可以將各種各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。Chukwa 本身也提供了很多內置的功能,幫助我們進行數據的收集和整理。 為了更加簡單直觀的展示 ...Chukwa更多Chukwa信息

 

  • 簡易HTTP爬蟲 HttpBot

    HttpBot 是對 java.net.HttpURLConnection類的簡單封裝,可以方便的獲取網頁內容,並且自動管理session,自動處理301重定向等。雖然不能像HttpClient那樣強大,支持完整的Http協議,但卻非常地靈活,可以滿足我目前所有的相關需求。...更多HttpBot信息

  • Web挖掘工具包 Bixo

    Bixo 是一個開放源碼的Web挖掘工具包,基於 Hadoop 開發和運行。通過建立一個定制的級聯管總成,您可以快速創建Web挖掘是專門為特定用例優化的應用程序。更多Bixo信息

  • Web爬蟲程序 CrawlZilla

    crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本...CrawlZilla更多CrawlZilla信息

  • 網頁爬蟲 Ex-Crawler

    Ex-Crawler 是一個網頁爬蟲,采用 Java 開發,該項目分成兩部分,一個是守護進程,另外一個是靈活可配置的 Web 爬蟲。使用數據庫存儲網頁信息。更多Ex-Crawler信息

  • 網頁抓取工具 PlayFish

    playfish是一個采用java技術,綜合應用多個開源java組件實現的網頁抓取工具,通過XML配置文件實現高度可定制性與可擴展性的網頁抓取工具 應用開源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經在 war包的lib下。 這個項...更多PlayFish信息

  • web爬蟲 jcrawl

    jcrawl是一款小巧性能優良的的web爬蟲,它可以從網頁抓取各種類型的文件,基於用戶定義的符號,比如email,qq.更多jcrawl信息

  • Java多線程Web爬蟲 Crawler4j

    Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。可以利用它來構建一個多線程的Web爬蟲。 示例代碼: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr...更多Crawler4j信息

  • Web爬蟲框架 Smart and Simple Web Crawler

    Smart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設置 過濾器限制爬回來的鏈接,默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE...更多Smart and Simple Web Crawler信息

  • 根據URL生成PDF的工具 h2p

    根據批量URL生成一個有書簽的pdf文檔的解決方案。h2p-file是一個xml文件,該xml文件主要描述url的信息和url的層次結構,h2p-tool根據h2p-file生成有書簽的pdf文檔。還可以通過xsl直接展示url的層次結構,而且合作網站對h2p的支持也將變得簡單...h2p更多h2p信息

  • 網頁搜索爬蟲 BlueLeech

    BlueLeech是一個開源程序,它從指定的URL開始,搜索所有可用的鏈接,以及鏈接之上的鏈接。它在搜索的同時可以下載遇到的鏈接所指向的所有的或預定義的范圍的內容。更多BlueLeech信息

  • 招聘信息爬蟲 JobHunter

    JobHunter旨在自動地從一些大型站點來獲取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每個工作項目的郵件地址,自動地向這一郵件地址發送申請文本。更多JobHunter信息

  • Java網頁爬蟲 JSpider

    JSpider是一個用Java實現的WebSpider,JSpider的執行格式如下: jspider [URL] [ConfigName] URL一定要加上協議名稱,如:http://,否則會報錯。如果省掉ConfigName,則采用默認配置。 JSpider 的行為是由配置文件具體配置的,比如采用什么插件,結果存儲方...更多JSpider信息

  • ItSucks

    ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持通過下載模板和正則表達式來定義下載規則。提供一個swing GUI操作界面。  ItSucks更多ItSucks信息

  • Web-Harvest

    Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。Web-Harvest更多Web-Harvest信息

  • JoBo

    JoBo是一個用於下載整個Web站點的簡單工具。它本質是一個Web Spider。與其它下載工具相比較它的主要優勢是能夠自動填充form(如:自動登錄)和使用cookies來處理session。JoBo還有靈活的 下載規則(如:通過網頁的URL,大小,MIME類型等)來限制下載。...JoBo更多JoBo信息

  • LARM

    LARM能夠為Jakarta Lucene搜索引擎框架的用戶提供一個純Java的搜索解決方案。它包含能夠為文件,數據庫表格建立索引的方法和為Web站點建索引的爬蟲。更多LARM信息

  • Arachnid

    Arachnid是一個基於Java的web spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實現Arachnid的子類就能夠開發一個簡單的Web spiders並能夠在Web站上的每個頁面被解析之后增加幾行代碼調用。 Arachnid的下載包中包含兩個spider應用...更多Arachnid信息

  • Spindle Spider

    spindle是一個構建在Lucene工具包之上的Web索引/搜索工具.它包括一個用於創建索引的HTTP spider和一個用於搜索這些索引的搜索類。spindle項目提供了一組JSP標簽庫使得那些基於JSP的站點不需要開發任何Java類就能夠增加搜 索功能。...更多Spindle Spider信息

  • Arale Spider

    Arale主要為個人使用而設計,而沒有像其它爬蟲一樣是關注於頁面索引。Arale能夠下載整個web站點或來自web站點的某些資源。Arale還能夠把動態頁面映射成靜態頁面。更多Arale Spider信息

  • WebLech

    WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠盡可能模仿標准Web瀏覽器的行為。WebLech有一個功能控制台並采用多線程操作。更多WebLech信息

 

  • WebSPHINX

    WebSPHINX是一個Java類包和Web爬蟲的交互式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成:爬蟲工作平台和WebSPHINX類包。WebSPHINX更多WebSPHINX信息

  • web爬蟲 Heritrix

    Heritrix是一個開源,可擴展的web爬蟲項目。用戶可以使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。 Heritrix是一個爬蟲框架,其組織結...Heritrix更多Heritrix信息

  • 網頁爬蟲 YaCy

    YaCy基於p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基於p2p Web索引網絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網頁或啟動分布式Crawling等.更多YaCy信息

    最近更新: YaCy 1.4 發布,分布式Web搜索引擎 發布於 2年前

  • 搜索引擎 Nutch

    Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。 Nutch誕生於2002年8月,是Apache旗下的一個用Java實現...Nutch更多Nutch信息

    最近更新: Apache Nutch 1.10 發布,搜索引擎 發布於 1個月前


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM