Python項目實踐--當當和豆瓣圖書爬蟲


圖書訪問接口:

接口地址:

http://api.xiaomafeixiang.com/api/bookinfo?isbn=9787544270878

把isbn替換為實際需要查詢圖書的isbn編號即可。

一、爬蟲架構Scrapy

選用的爬蟲框架是Scrapy,具體學習文檔可參考:

官方文檔:https://scrapy.org/

二、Scrapy爬取動態內容

網頁解析部分,如果是靜態網頁可以直接對返回的數據進行解析。

針對動態網頁,最終選用的方案是Selenium Chrome方案。分析過程見以下文檔:

Scrapy爬取動態內容(一)Splash方案

Scrapy爬取動態內容(二)Selenium Chrome方案

Scrapy爬取動態內容(三)Selenium Firefox方案

Scrapy爬取動態內容(四)Selenium-Server方案

三、環境部署

Python項目實踐--環境准備03 Scrapy + Selenium Chrome工作環境

四、工程結構簡介

1、spiders部分

 

 這里主要分為三部分內容:

(1) 抓取各大免費代理,從實際效果來看,可用的合法代理還是比較少的。

(2) 當當圖書抓取。

(3) 豆瓣圖書抓取。

2、中間件

 

 中間件部分針對抓取圖書和抓取代理、使用免費代理和付費代理做了區分。

3、管道和數據模型

4、selenium部分

五、代碼講解

 

(持續整理中)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM