Awesome-crawler-cn

互聯網爬蟲，蜘蛛，數據采集器，網頁解析器的匯總，因新技術不斷發展，新框架層出不窮，此文會不斷更新...

交流討論

Scrapy - 一種高效的屏幕,網頁數據采集框架。
- django-dynamic-scraper - 基於Scrapy內核由django Web框架開發的爬蟲。
- Scrapy-Redis - 基於Scrapy內核采用Redis組件的爬蟲。
- scrapy-cluster - 基於Scrapy內核采用Redis 和 Kafka 開發的分布式爬蟲框架。
- distribute_crawler - 基於Scrapy內核采用redis, mongodb開發的分布式爬蟲框架。
pyspider - 一個強大純python的數據采集系統.
cola - 一個分布式的爬蟲框架.
Demiurge - 基於PyQuery的微型爬蟲框架.
Scrapely - 一個純python的HTML頁面捕捉庫.
feedparser - 一個通用的feed解析器.
you-get - 靜默網站爬去下載器.
Grab - 網站采集框架.
MechanicalSoup - 一個自動化的互動網站Python庫.
portia - 基於Scrapy的可視化數據采集框架.
crawley - 基於非阻塞通信(NIO)的python爬蟲框架.
RoboBrowser - 一個簡單的，不基於Web瀏覽器的基於Python的Web 瀏覽器.
MSpider - 一個基於gevent(協程網絡庫)的python爬蟲.
brownant - 一個輕量級的網絡數據抽取框架.

Apache Nutch - 用於生產環境的高度可擴展的高度可擴展的網絡爬蟲.
- anthelion - 一個基於Apache Nutch抓取語義注釋在HTML頁面插件.
Crawler4j - 簡單和輕量級的網絡爬蟲.
JSoup - 采集，分析，處理和清洗HTML頁面.
websphinx - HTML網站特定的處理、信息提取.
Open Search Server - 全套搜索功能，建立你自己的索引策略。分析、提取全文數據，這個框架可以索引的一切.
Gecco - 一個易於使用的輕量級網絡爬蟲.
WebCollector -簡單的抓取網頁的界面，可以在不到5分鍾內部署一個多線程的網絡爬蟲.
Webmagic -一個可擴展的爬蟲框架.
Spiderman -一個可擴展的，多線程的網絡爬蟲.
- Spiderman2 - 分布式網絡爬蟲框架，支持javascript渲染.
Heritrix3 - 可擴展，大規模的網絡爬蟲項目.
SeimiCrawler - 一個敏捷的分布式爬蟲框架.
StormCrawler - 基於開放源代碼、構建低延遲的網絡資源采集框架，基於Apache Storm.
Spark-Crawler - 基於Apache Nutch 的網絡爬蟲，可以運行於Spark.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 開源網絡爬蟲匯總 13個.Net開源的網絡爬蟲 Python網絡爬蟲（3）：開源爬蟲框架對比 Python 網絡爬蟲的常用庫匯總 .Net開源網絡爬蟲Abot介紹 .Net開源網絡爬蟲Abot介紹開源的49款Java 網絡爬蟲軟件 83款網絡爬蟲開源軟件目前網絡上開源的網絡爬蟲以及一些簡介和比較【轉】44款Java 網絡爬蟲開源軟件