基于Redis的爬虫平台的实现

本文转载自查看原文 2016-10-09 10:45 1281 爬虫

一、需求：

1.数据抓取：目标数据的下载、解析、入库功能。

2.数据服务：黑名单、灰名单等查询服务。

3.平台监控：平台各个模块的数据实时监控。

二、WEB端效果展示：

三、架构设计

下载器、解析器、持久器、调度器都支持独立部署，可横向拓展部署多台服务。解耦。

下载器内部开启多线程下载；

解析器从待解析队列取数据，分支抽链、解析；

调度器和持久器都放在web工程中，项目启动时抓取任务初始化+持久器任务开启。

下载器、解析器、调度器、持久器都依赖于底层基础DAO服务。

四、技术选型

1.下载器和解析器：尝试过很多种，Jsoup、Jspider、Xpath、httpclient、HtmlUnit等。基本功能都可以。Jsoup可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup的强大选择器最终让我选择了它。

2.生产消费介质：这里有很多种：消息队列MQ、缓存容器redis等都可以胜任。作为一次练手，采用单台redis作为消费介质（内部串行执行），可避免多线程并发问题，数据结构为list。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 关于爬虫平台的架构设计实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现关于爬虫平台的架构设计实现和框架的选型(一) 基于Python,scrapy,redis的分布式爬虫实现框架 scrapy-redis实现分布式爬虫基本爬虫架构：实现豆瓣爬虫 centos8平台php7.4.2安装phpredis实现对redis的访问爬虫管理平台以及wordpress本地搭建网络爬虫（一）：配置selenium、pycharm（windows平台）爬虫--微信公众平台登录爬虫实现股票分析（一）