一:下載文件的 Files Pipeline
使用Files Pipeline下載文件,按照以下步驟完成:
- 定義好一個Item,然后在這個item中定義兩個屬性,分別為file_urls以及files。files_urls是用來存儲需要下載的文件的url鏈接,需要給一個列表
- 當文件下載完成后,會把文件下載的相關信息存儲到item的files屬性中。如下載路徑、下載的url和文件校驗碼等
- 在配置文件settings.py中配置FILES_STORE,這個配置用來設置文件下載路徑
- 啟動pipeline:在ITEM_PIPELINES中設置scrapy.piplines.files.FilesPipeline:1
二:下載圖片的 Images Pipeline
使用images pipeline下載文件步驟:
- 定義好一個Item,然后在這個item中定義兩個屬性,分別為image_urls以及images。image_urls是用來存儲需要下載的文件的url鏈接,需要給一個列表
- 當文件下載完成后,會把文件下載的相關信息存儲到item的images屬性中。如下載路徑、下載的url和圖片校驗碼等
- 在配置文件settings.py中配置IMAGES_STORE,這個配置用來設置文件下載路徑
- 啟動pipeline:在ITEM_PIPELINES中設置scrapy.pipelines.images.ImagesPipeline:1
2.1 配置文件修改

import os ITEM_PIPELINES = { # 'bmw.pipelines.BmwPipeline': 300, 'scrapy.pipelines.images.ImagesPipeline': 1 # 使用scrapy內置的ImagesPipeline } # 配置文件的下載路徑 IMAGES_STORE = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')
2.2 修改items字段

import scrapy class BmwItem(scrapy.Item): category = scrapy.Field() image_urls = scrapy.Field() images = scrapy.Field()
2.3 修改爬取數據文件
由於字段修改了,在爬取數據文件中,只需要修改下字段名即可

class BmwSpider(scrapy.Spider): name = 'bmw' allowed_domains = ['car.autohome.com.cn'] start_urls = ['https://car.autohome.com.cn/pic/series/4472.html'] def parse(self, response): uiboxs = response.xpath('//div[@class="uibox"]')[1:] for uibox in uiboxs: category = uibox.xpath('.//div[@class="uibox-title"]/a/text()').get() url_list = uibox.xpath('.//ul/li/a/img/@src').getall() # urls = ['https:' + url for url in url_list] urls = list(map(lambda url: response.urljoin(url), url_list)) item = AutohomeItem(category = category, image_urls = urls) # 修改這里的urls為image_urls yield item
修改完后即可運行程序,下載圖片(異步下載)。
下載的圖片都保存在images/full/目錄下,為什么了多了full這個目錄,查看下源碼:
由於scrapy默認的Images Pipeline目錄結構不是我們想要的,我們希望圖片按照目標站的分類進行創建目錄結構,所以得重寫保存路徑的代碼
2.4 自定義 images pipeline
首先修改下settings配置文件:

ITEM_PIPELINES = { # 'bmw.pipelines.BmwPipeline': 300, # 'scrapy.pipelines.images.ImagesPipeline': 1 'bmw.pipelines.BmwImagesPipeline': 1 # 自定義的BmwImagesPipeline類 }
在pipelines.py文件實現自定義的BmwImagesPipeline類:

import os from urllib import request from scrapy.pipelines.images import ImagesPipeline from bmw import settings class BmwImagesPipeline(ImagesPipeline): # 必須繼承ImagesPipeline # 重寫父類的下面兩個方法 def get_media_requests(self, item, info): # 該方法在發送下載請求前調用,其實這個方法本身就是去發送下載請求的 # 因為file_path中並沒有item對象,所以使用該方法將item動態綁定到request對象上 request_objs = super(BmwImagesPipeline, self).get_media_requests(item, info) for request_obj in request_objs: request_obj.item = item return request_objs def file_path(self, request, response = None, info = None): # 該方法是在圖片將要被存儲的時候調用,來獲取這個圖片存儲路徑 path = super(BmwImagesPipeline, self).file_path(request, response, info) category = request.item.get('category') images_store = settings.IMAGES_STORE category_path = os.path.join(images_store, category) if not os.path.exists(category_path): os.mkdir(category_path) image_name = path.replace('full/', '') image_path = os.path.join(category_path, image_name) return image_path
三:Images Pipeline的簡單案例
1:spider文件內容如下

import scrapy from ImgsPro.items import ImgsproItem class ChinazSpider(scrapy.Spider): name = 'chinaz' # allowed_domains = ['www.xxx.com'] start_urls = ['http://sc.chinaz.com/tupian/'] def parse(self, response): div_list = response.xpath('//div[@id="container"]/div') for div in div_list: # 這里涉及到了圖片的懶加載,所以這里的xpath規則使用了src2的這個偽屬性 src = div.xpath('./div/a/img/@src2').extract_first() item = ImgsproItem(src = src) yield item
2:items.py文件內容

import scrapy class ImgsproItem(scrapy.Item): src = scrapy.Field()
3:pipeline文件內容

from scrapy.pipelines.images import ImagesPipeline import scrapy class ImgsPipeline(ImagesPipeline): # 主要重寫下面三個父類方法 def get_media_requests(self, item, info): yield scrapy.Request(item['src']) def file_path(self, request, response=None, info=None): img_name = request.url.split('/')[-1] return img_name # 返回文件名 def item_completed(self, results, item, info): return item # 返回給下一個即將被執行的管道類
4:settings配置文件

ITEM_PIPELINES = { # 'ImgsPro.pipelines.ImgsproPipeline': 300, 'ImgsPro.pipelines.ImgsPipeline': 300, } IMAGES_STORE = './images'