scrapy中下載文件和圖片

本文轉載自查看原文 2019-10-19 13:39 611 scrapy

下載文件是一種很常見的需求，例如當你在使用爬蟲爬取網站中的圖片、視頻、word、pdf、壓縮包等的時候

scrapy中提供了FilesPipeline和ImagesPipeline，專門用來下載文件和圖片：

　　我們其實可以把這兩個item pipeline看成是特殊的下載器，用戶使用的時候只需要通過item的一個特殊的字段就可以將要下載的文件或者圖片的url傳遞給它們，它們會自動將文件或者圖片下載到本地，並將下載的結果信息存入到item的另一個特殊的字段，方便用戶在導出文件的時候查閱

　　FilesPipeline

　　　　使用FilesPipeline下載頁面中所有的PDF文件，

1. 在配置文件settings中啟用FilesPipeline，通常將其至於其它的item pipeline的前面
2. 在配置文件中settings中，使用FILES_STORE指定文件的下載目錄
3. 在spider解析一個包含文件下載鏈接的頁面的時候，將所有的需要下載文件的url地址都收集到一個列表中，賦值給item的file_urls字段(item['file_urls'])。FilesPipeline在處理每一項item的時候會去讀item['file_urls']，對其中的每一個url進行下載

　　　　當FilesPipeline下載完item['file_urls']所有的文件后，會講各個文件的下載結果收集到另一個列表，賦值給item的files字段item['files']。下載的結果包括以下內容：

　　ImagesPipeline

　　　　圖片也是文件，所以下載圖片本質上其實也是下載文件，ImagesPipeline是FilesPipeline的子類，使用上和FilesPipeline大同小異，只是在所使用的item字段和配置選項上略有差別，

　　　　　　ImagesPipeline在FilesPipeline的基礎上針對圖片增加了一些特有的功能：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲之scrapy下載文件和圖片 vue中下載文件如pdf及圖片 java 從網絡Url中下載文件 vue項目中下載文件踩過的坑（一） SpringMVC實現從磁盤中下載文件 Node.js中下載文件, 獲取下載進度如何在啟用JWT Token授權的.NET Core WebApi項目中下載文件 ajax下載文件的方法 php下載圖片的方法 vue里面如何下載圖片，如何下載文件關於scrapy下載文件重命名的辦法以及對應url沒有文件后綴的辦法