Awesome-crawler-cn
互聯網爬蟲,蜘蛛,數據采集器,網頁解析器的匯總,因新技術不斷發展,新框架層出不窮,此文會不斷更新...
交流討論
- 歡迎推薦你知道的開源網絡爬蟲,網頁抽取框架.
- 開源網絡爬蟲QQ交流群:322937592
- email address: liinux at qq.com
Python
- Scrapy - 一種高效的屏幕,網頁數據采集框架。
- django-dynamic-scraper - 基於Scrapy內核由django Web框架開發的爬蟲。
- Scrapy-Redis - 基於Scrapy內核采用Redis組件的爬蟲。
- scrapy-cluster - 基於Scrapy內核采用Redis 和 Kafka 開發的分布式爬蟲框架。
- distribute_crawler - 基於Scrapy內核采用redis, mongodb開發的分布式爬蟲框架。
- pyspider - 一個強大純python的數據采集系統.
- cola - 一個分布式的爬蟲框架.
- Demiurge - 基於PyQuery的微型爬蟲框架.
- Scrapely - 一個純python的HTML頁面捕捉庫.
- feedparser - 一個通用的feed解析器.
- you-get - 靜默網站爬去下載器.
- Grab - 網站采集框架.
- MechanicalSoup - 一個自動化的互動網站Python庫.
- portia - 基於Scrapy的可視化數據采集框架.
- crawley - 基於非阻塞通信(NIO)的python爬蟲框架.
- RoboBrowser - 一個簡單的,不基於Web瀏覽器的基於Python的Web 瀏覽器.
- MSpider - 一個基於gevent(協程網絡庫)的python爬蟲.
- brownant - 一個輕量級的網絡數據抽取框架.
Java
- Apache Nutch - 用於生產環境的高度可擴展的高度可擴展的網絡爬蟲.
- anthelion - 一個基於Apache Nutch抓取語義注釋在HTML頁面插件.
- Crawler4j - 簡單和輕量級的網絡爬蟲.
- JSoup - 采集,分析,處理和清洗HTML頁面.
- websphinx - HTML網站特定的處理、信息提取.
- Open Search Server - 全套搜索功能,建立你自己的索引策略。分析、提取全文數據,這個框架可以索引的一切.
- Gecco - 一個易於使用的輕量級網絡爬蟲.
- WebCollector -簡單的抓取網頁的界面,可以在不到5分鍾內部署一個多線程的網絡爬蟲.
- Webmagic -一個可擴展的爬蟲框架.
- Spiderman -一個可擴展的,多線程的網絡爬蟲.
- Spiderman2 - 分布式網絡爬蟲框架,支持javascript渲染.
- Heritrix3 - 可擴展,大規模的網絡爬蟲項目.
- SeimiCrawler - 一個敏捷的分布式爬蟲框架.
- StormCrawler - 基於開放源代碼、構建低延遲的網絡資源采集框架,基於Apache Storm.
- Spark-Crawler - 基於Apache Nutch 的網絡爬蟲,可以運行於Spark.
C#
- ccrawler - 一個簡單的Web內容分類方案,它可以根據其內容分開網頁,基於C#3.5.
- SimpleCrawler - 簡單的多線程網絡爬蟲,基於REG表達式.
- DotnetSpider - 基於C#開發的一個輕量級,交叉平台的網絡爬蟲.
- Abot - 具有很好效率和可擴展性的C#網絡爬蟲.
- Hawk - 用 C#/WPF開發的網絡爬蟲,具有簡單的ETL功能.
- SkyScraper - 一個支持異步網絡和有很好擴展性的網絡爬蟲.
JavaScript
- scraperjs - 基於JS的一個功能齊全的網絡爬蟲.
- scrape-it - 基於Node.js的網絡爬蟲.
- simplecrawler - 基於事件驅動開發的網絡爬蟲.
- node-crawler - 提供簡單API,適於二次開發的網絡爬蟲.
- js-crawler - 基於Node.JS,支持HTTP(S)的網絡爬蟲.
- x-ray - 支持分頁的網絡爬蟲.
- node-osmosis - 基於Node.js適於解析HTML結構的網絡爬蟲.
PHP
- Goutte - 基於PHP的網頁截屏和爬取程序.
- laravel-goutte - 基於Laravel 5 的網絡爬蟲.
- dom-crawler - 易於抽取DOM文件的網絡爬蟲.
- pspider - 基於PHP的並發網絡爬蟲.
- php-spider - 一個基於PHP的高可擴展的網絡爬蟲.
C++
- open-source-search-engine - 基於C/C++開發的網絡爬蟲和搜索引擎.
C
- httrack - 全部網站整體復制工具。 ## Ruby
- upton - 一個易於上手的爬蟲框架集合,支持CSS選擇器.
- wombat - 基於Ruby天然的支持DSL的網絡爬蟲,易於提取網頁正文數據.
- RubyRetriever - 基於Ruby的網站數據采集和全網數據收割機.
- Spidr - 全站數據采集,支持無限的網站鏈接地址采集.
- Cobweb - 非常靈活,易於擴展的網絡爬蟲,可以單點部署使用.
- mechanize - 自動采集網站數據的框架.
R
- rvest - 基於R開發的簡單網絡爬蟲.
Erlang
- ebot - 一個分布式,高可擴展的網絡爬蟲.
Perl
- web-scraper - 方便使用HTML、CSS、XPath選擇器的網絡爬蟲。
Go
- pholcus - 一個分布式,支持高並發的網絡爬蟲.
- gocrawl - 一個高並發的,輕量級,遵守道德的網絡爬蟲.
- fetchbot -一個遵守robots.txt規則和延遲規則的輕量級網絡爬蟲.
- go_spider - 一個非常好的高並發網絡爬蟲.
- dht -支持DHT協議的網絡爬蟲.
- ants-go - 基於Golang的高並行網絡爬蟲.
- scrape - 一個簡單的提供很好開發接口的網絡爬蟲.