一：下載文件的 Files Pipeline

使用Files Pipeline下載文件，按照以下步驟完成：

定義好一個Item，然后在這個item中定義兩個屬性，分別為file_urls以及files。files_urls是用來存儲需要下載的文件的url鏈接，需要給一個列表
當文件下載完成后，會把文件下載的相關信息存儲到item的files屬性中。如下載路徑、下載的url和文件校驗碼等
在配置文件settings.py中配置FILES_STORE，這個配置用來設置文件下載路徑
啟動pipeline：在ITEM_PIPELINES中設置scrapy.piplines.files.FilesPipeline:1

二：下載圖片的 Images Pipeline

使用images pipeline下載文件步驟：

定義好一個Item，然后在這個item中定義兩個屬性，分別為image_urls以及images。image_urls是用來存儲需要下載的文件的url鏈接，需要給一個列表
當文件下載完成后，會把文件下載的相關信息存儲到item的images屬性中。如下載路徑、下載的url和圖片校驗碼等
在配置文件settings.py中配置IMAGES_STORE，這個配置用來設置文件下載路徑
啟動pipeline：在ITEM_PIPELINES中設置scrapy.pipelines.images.ImagesPipeline:1

2.1 配置文件修改

import os
ITEM_PIPELINES = {
   # 'bmw.pipelines.BmwPipeline': 300,
    'scrapy.pipelines.images.ImagesPipeline': 1    # 使用scrapy內置的ImagesPipeline
}
# 配置文件的下載路徑
IMAGES_STORE = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')

settings.py

2.2 修改items字段

import scrapy
class BmwItem(scrapy.Item):
    category = scrapy.Field()
    image_urls = scrapy.Field()
    images = scrapy.Field()

items.py

2.3 修改爬取數據文件

由於字段修改了，在爬取數據文件中，只需要修改下字段名即可

class BmwSpider(scrapy.Spider):
    name = 'bmw'
    allowed_domains = ['car.autohome.com.cn']
    start_urls = ['https://car.autohome.com.cn/pic/series/4472.html']
    def parse(self, response):
        uiboxs = response.xpath('//div[@class="uibox"]')[1:]
        for uibox in uiboxs:
            category = uibox.xpath('.//div[@class="uibox-title"]/a/text()').get()
            url_list = uibox.xpath('.//ul/li/a/img/@src').getall()
            # urls = ['https:' + url for url in url_list]
            urls = list(map(lambda url: response.urljoin(url), url_list))
            item = AutohomeItem(category = category, image_urls = urls)    # 修改這里的urls為image_urls
            yield item

View Code

修改完后即可運行程序，下載圖片（異步下載）。
下載的圖片都保存在images/full/目錄下，為什么了多了full這個目錄，查看下源碼：
Python爬蟲之scrapy下載文件和圖片
由於scrapy默認的Images Pipeline目錄結構不是我們想要的，我們希望圖片按照目標站的分類進行創建目錄結構，所以得重寫保存路徑的代碼

2.4 自定義 images pipeline

首先修改下settings配置文件：

ITEM_PIPELINES = {
   # 'bmw.pipelines.BmwPipeline': 300,
   #  'scrapy.pipelines.images.ImagesPipeline': 1
    'bmw.pipelines.BmwImagesPipeline': 1      # 自定義的BmwImagesPipeline類
}

settings.py

在pipelines.py文件實現自定義的BmwImagesPipeline類：

import os
from urllib import request
from scrapy.pipelines.images import ImagesPipeline
from bmw import settings

class BmwImagesPipeline(ImagesPipeline):    # 必須繼承ImagesPipeline
    # 重寫父類的下面兩個方法
    def get_media_requests(self, item, info):
        # 該方法在發送下載請求前調用，其實這個方法本身就是去發送下載請求的
        # 因為file_path中並沒有item對象，所以使用該方法將item動態綁定到request對象上
        request_objs = super(BmwImagesPipeline, self).get_media_requests(item, info)
        for request_obj in request_objs:
            request_obj.item = item
        return request_objs
    def file_path(self, request, response = None, info = None):
        # 該方法是在圖片將要被存儲的時候調用，來獲取這個圖片存儲路徑
        path = super(BmwImagesPipeline, self).file_path(request, response, info)
        category = request.item.get('category')
        images_store = settings.IMAGES_STORE
        category_path = os.path.join(images_store, category)
        if not os.path.exists(category_path):
            os.mkdir(category_path)
        image_name = path.replace('full/', '')
        image_path = os.path.join(category_path, image_name)
        return image_path

pipelines.py

三：Images Pipeline的簡單案例

1：spider文件內容如下

import scrapy
from ImgsPro.items import ImgsproItem
class ChinazSpider(scrapy.Spider):
    name = 'chinaz'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://sc.chinaz.com/tupian/']
    def parse(self, response):
        div_list = response.xpath('//div[@id="container"]/div')
        for div in div_list:
            # 這里涉及到了圖片的懶加載，所以這里的xpath規則使用了src2的這個偽屬性
            src = div.xpath('./div/a/img/@src2').extract_first()
            item = ImgsproItem(src = src)
            yield item

View Code

2：items.py文件內容

import scrapy
class ImgsproItem(scrapy.Item):
    src = scrapy.Field()

items.py

3：pipeline文件內容

from scrapy.pipelines.images import ImagesPipeline
import scrapy
class ImgsPipeline(ImagesPipeline):
    # 主要重寫下面三個父類方法
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['src'])
    def file_path(self, request, response=None, info=None):
        img_name = request.url.split('/')[-1]
        return img_name    # 返回文件名
    def item_completed(self, results, item, info):
        return item # 返回給下一個即將被執行的管道類

pipelines.py

4：settings配置文件

ITEM_PIPELINES = {
   # 'ImgsPro.pipelines.ImgsproPipeline': 300,
   'ImgsPro.pipelines.ImgsPipeline': 300,
}
IMAGES_STORE = './images'

settings.py

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy中下載文件和圖片 python網絡爬蟲之使用scrapy下載文件 python爬蟲下載文件 ajax下載文件的方法 php下載圖片的方法 vue里面如何下載圖片，如何下載文件 axios通過post請求下載文件/圖片前端展示圖片和下載文件的幾種形式 vue中下載文件如pdf及圖片 get 下載文件怎么用ajax下載文件