圖書訪問接口:
接口地址:
http://api.xiaomafeixiang.com/api/bookinfo?isbn=9787544270878
把isbn替換為實際需要查詢圖書的isbn編號即可。
一、爬蟲架構Scrapy
選用的爬蟲框架是Scrapy,具體學習文檔可參考:
官方文檔:https://scrapy.org/
二、Scrapy爬取動態內容
網頁解析部分,如果是靜態網頁可以直接對返回的數據進行解析。
針對動態網頁,最終選用的方案是Selenium Chrome方案。分析過程見以下文檔:
Scrapy爬取動態內容(二)Selenium Chrome方案
Scrapy爬取動態內容(三)Selenium Firefox方案
Scrapy爬取動態內容(四)Selenium-Server方案
三、環境部署
Python項目實踐--環境准備03 Scrapy + Selenium Chrome工作環境
四、工程結構簡介
1、spiders部分
這里主要分為三部分內容:
(1) 抓取各大免費代理,從實際效果來看,可用的合法代理還是比較少的。
(2) 當當圖書抓取。
(3) 豆瓣圖書抓取。
2、中間件
中間件部分針對抓取圖書和抓取代理、使用免費代理和付費代理做了區分。
3、管道和數據模型
4、selenium部分
五、代碼講解
(持續整理中)