常用爬虫框架及优劣

本文转载自查看原文 2017-02-06 10:25 2192

分布式爬虫：Apache的Nutch,Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。

JAVA单机爬虫：Crawler4j、WebMagic、WebCollector

非JAVA单机爬虫：scrapy

python内置的urllib2，也可以用requests

Beautiful Soup　　缺点：不能加载JS

Scrapy　　支持自定义Item，pipeline数据管道,用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。

mechanize　　优点：可以加载JS。缺点：文档严重缺失。

selenium　　这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

cola　　个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高，不过值得借鉴。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Grails框架优劣势 Python scrapy爬虫框架常用setting配置 Scrapy爬虫框架与常用命令 Python常用的爬虫框架及操作库从jQuery谈库与框架的设计之优劣爬虫的基本框架 ASP.NET常用数据绑定控件优劣总结常用的关系型数据库的优劣与选择爬虫-Python爬虫常用库 python爬虫框架（1）--框架概述