Python项目实践--当当和豆瓣图书爬虫

本文转载自查看原文 2020-04-01 16:15 750 Scrapy/ Python项目实践

接口地址：

把isbn替换为实际需要查询图书的isbn编号即可。

选用的爬虫框架是Scrapy，具体学习文档可参考：

官方文档：https://scrapy.org/

网页解析部分，如果是静态网页可以直接对返回的数据进行解析。

针对动态网页，最终选用的方案是Selenium Chrome方案。分析过程见以下文档：

这里主要分为三部分内容：

(1) 抓取各大免费代理，从实际效果来看，可用的合法代理还是比较少的。

(2) 当当图书抓取。

(3) 豆瓣图书抓取。

中间件部分针对抓取图书和抓取代理、使用免费代理和付费代理做了区分。

（持续整理中）

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 爬虫之获取当当网全部图书 Python爬虫-爬取豆瓣图书Top250 爬虫系列之豆瓣图书排行【python爬虫】爬取当当网TOP500图书畅销榜爬虫实践-爬取豆瓣网图书TOP250的数据爬虫之爬取豆瓣图书的评论 Python爬虫笔记：爬取豆瓣图书TOP250单页数据 python爬虫实践——爬取“豆瓣top250” Python网络爬虫——当当网 python豆瓣的简单爬虫