一.什么是Scrapy?
Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架,非常出名,非常強悍。所謂的框架就是一個已經被集成了各種功能(高性能異步下載,隊列,分布式,解析,持久化等)的具有很強通用性的項目模板。對於框架的學習,重點是要學習其框架的特性、各個功能的用法即可。
二.scrapy安裝
Linux:
pip3 install scrapy
Windows:
a. pip3 install wheel
b. 下載twisted http:
/
/
www.lfd.uci.edu
/
~gohlke
/
pythonlibs
/
#twisted
c. 進入下載目錄,執行 pip3 install Twisted‑
17.1
.
0
‑cp35‑cp35m‑win_amd64.whl
d. pip3 install pywin32
e.
pip3 install scrapy
pip3 install Twisted‑
17.1
.
0
‑cp35‑cp35m‑win_amd64.whl失敗,請自行換成32位的即可解決,網上亂七八槽的答案請繞過,本人以親測沒什么卵用!!!
三.基礎使用
project_name/ scrapy.cfg: project_name/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py scrapy.cfg 項目的主配置信息。(真正爬蟲相關的配置信息在settings.py文件中) items.py 設置數據存儲模板,用於結構化數據,如:Django的Model pipelines 數據持久化處理 settings.py 配置文件,如:遞歸的層數、並發數,延遲下載等 spiders 爬蟲目錄,如:創建文件,編寫爬蟲解析規則
# -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #應用名稱 #允許爬取的域名(如果遇到非該域名的url則爬取不到數據) allowed_domains = ['https://www.qiushibaike.com/'] #起始爬取的url start_urls = ['https://www.qiushibaike.com/'] #訪問起始URL並獲取結果后的回調函數,該函數的response參數就是向起始的url發送請求后,獲取的響應對象.該函數返回值必須為可迭代對象或者NUll def parse(self, response): print(response.text) #獲取字符串類型的響應內容 print(response.body)#獲取字節類型的相應內容
4.設置修改settings.py配置文件相關配置:
#修改內容及其結果如下: 19行:USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #偽裝請求載體身份 22行:ROBOTSTXT_OBEY = False #可以忽略或者不遵守robots協議
5.執行爬蟲程序(cmd):scrapy crawl 應用名稱
在cmd中執行爬蟲程序時要先將目錄切換到我們創建的scrapy項目目錄下,否則就會報:Unknown command: crawl錯誤!!!!!!!
小試牛刀:將糗百首頁中段子的內容和標題進行爬取
# -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #應用名稱 allowed_domains = ['https://www.qiushibaike.com/'] start_urls = ['https://www.qiushibaike.com/'] def parse(self, response): #xpath為response中的方法,可以將xpath表達式直接作用於該函數中 odiv = response.xpath('//div[@id="content-left"]/div') content_list = [] #用於存儲解析到的數據 for div in odiv: #xpath函數返回的為列表,列表中存放的數據為Selector類型的數據。我們解析到的內容被封裝在了Selector對象中,需要調用extract()函數將解析的內容從Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract() content=div.xpath('.//div[@class="content"]/span/text()')[0].extract() #將解析到的內容封裝到字典中 dic={ '作者':author, '內容':content } #將數據存儲到content_list這個列表中 content_list.append(dic) return content_list
執行爬蟲程序:
執行輸出指定格式進行存儲:將爬取到的數據寫入不同格式的文件中進行存儲 scrapy crawl qiubai -o qiubai.json scrapy crawl qiubai -o qiubai.xml scrapy crawl qiubai -o qiubai.csv
四.scrapy持久化操作:將爬取到糗百數據存儲寫入到文本文件中進行存儲
# -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' allowed_domains = ['https://www.qiushibaike.com/'] start_urls = ['https://www.qiushibaike.com/'] def parse(self, response): #xpath為response中的方法,可以將xpath表達式直接作用於該函數中 odiv = response.xpath('//div[@id="content-left"]/div') with open('./data.txt', 'w') as fp: for div in odiv: #xpath函數返回的為列表,列表中存放的數據為Selector類型的數據。我們解析到的內容被封裝在了Selector對象中,需要調用extract()函數將解析的內容從Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract() content=div.xpath('.//div[@class="content"]/span/text()')[0].extract() #持久化存儲爬取到的內容 fp.write(author + ':' + content + '\n')
注意:上述代碼表示的持久化操作是我們自己通過IO操作將數據進行的文件存儲。在scrapy框架中已經為我們專門集成好了高效、便捷的持久化操作功能,我們直接使用即可。要想使用scrapy的持久化操作功能,我們首先來認識如下兩個文件:
items.py:數據結構模板文件。定義數據屬性。 pipelines.py:管道文件。接收數據(items),進行持久化操作。 持久化流程: 1.爬蟲文件爬取到數據后,需要將數據封裝到items對象中。 2.使用yield關鍵字將items對象提交給pipelines管道進行持久化操作。 3.settings.py配置文件中開啟管道
小試牛刀:將糗事百科首頁中的段子和作者數據爬取下來,然后進行持久化存儲
爬蟲文件:qiubaiDemo.py
# -*- coding: utf-8 -*- import scrapy from secondblood.items import SecondbloodItem class QiubaidemoSpider(scrapy.Spider): name = 'qiubaiDemo' allowed_domains = ['www.qiushibaike.com'] start_urls = ['http://www.qiushibaike.com/'] def parse(self, response): odiv = response.xpath('//div[@id="content-left"]/div') for div in odiv: # xpath函數返回的為列表,列表中存放的數據為Selector類型的數據。我們解析到的內容被封裝在了Selector對象中,需要調用extract()函數將解析的內容從Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first() author = author.strip('\n')#過濾空行 content = div.xpath('.//div[@class="content"]/span/text()').extract_first() content = content.strip('\n')#過濾空行 #將解析到的數據封裝至items對象中 item = SecondbloodItem() item['author'] = author item['content'] = content yield item#提交item到管道文件(pipelines.py)
items文件:items.py
import scrapy class SecondbloodItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() #存儲作者 content = scrapy.Field() #存儲段子內容
管道文件:pipelines.py
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html class SecondbloodPipeline(object): #構造方法 def __init__(self): self.fp = None #定義一個文件描述符屬性 #下列都是在重寫父類的方法: #開始爬蟲時,執行一次 def open_spider(self,spider): print('爬蟲開始') self.fp = open('./data.txt', 'w') #因為該方法會被執行調用多次,所以文件的開啟和關閉操作寫在了另外兩個只會各自執行一次的方法中。 def process_item(self, item, spider): #將爬蟲程序提交的item進行持久化存儲 self.fp.write(item['author'] + ':' + item['content'] + '\n') return item #結束爬蟲時,執行一次 def close_spider(self,spider): self.fp.close() print('爬蟲結束')
配置文件:settings.py
#開啟管道 ITEM_PIPELINES = { 'secondblood.pipelines.SecondbloodPipeline': 300, #300表示為優先級,值越小優先級越高 }
Scrapy遞歸爬取多頁數據:
需求:將糗事百科所有頁碼的作者和段子內容數據進行爬取切持久化存儲
# -*- coding: utf-8 -*- import scrapy from qiushibaike.items import QiushibaikeItem # scrapy.http import Request class QiushiSpider(scrapy.Spider): name = 'qiushi' allowed_domains = ['www.qiushibaike.com'] start_urls = ['https://www.qiushibaike.com/text/'] #爬取多頁 pageNum = 1 #起始頁碼 url = 'https://www.qiushibaike.com/text/page/%s/' #每頁的url def parse(self, response): div_list=response.xpath('//*[@id="content-left"]/div') for div in div_list: #//*[@id="qiushi_tag_120996995"]/div[1]/a[2]/h2 author=div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first() author=author.strip('\n') content=div.xpath('.//div[@class="content"]/span/text()').extract_first() content=content.strip('\n') item=QiushibaikeItem() item['author']=author item['content']=content yield item #提交item到管道進行持久化 #爬取所有頁碼數據 if self.pageNum <= 13: #一共爬取13頁(共13頁) self.pageNum += 1 url = format(self.url % self.pageNum) #遞歸爬取數據:callback參數的值為回調函數(將url請求后,得到的相應數據繼續進行parse解析),遞歸調用parse函數 yield scrapy.Request(url=url,callback=self.parse)
Scrapy組件:
- 引擎(Scrapy)
用來處理整個系統的數據流處理, 觸發事務(框架核心) - 調度器(Scheduler)
用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址 - 下載器(Downloader)
用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的) - 爬蟲(Spiders)
爬蟲是主要干活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面 - 項目管道(Pipeline)
負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析后,將被發送到項目管道,並經過幾個特定的次序處理數據。
* 解釋:引擎首先會將爬蟲文件中的起始url獲取,並且提交到調度器中。如果需要從url中下載數據,則調度器會將url通過引擎提交給下載器,下載器根據url去下載指定內容(響應體)。下載好的數據會通過引擎移交給爬蟲文件,爬蟲文件可以將下載的數據進行指定格式的解析。如果解析出的數據需要進行持久化存儲,則爬蟲文件會將解析好的數據通過引擎移交給管道進行持久化存儲。
面試題:如果最終需要將爬取到的數據值一份存儲到磁盤文件,一份存儲到數據庫中,則應該如何操作scrapy?
答:
管道文件中的代碼為:
#該類為管道類,該類中的process_item方法是用來實現持久化存儲操作的。 class DoublekillPipeline(object): def process_item(self, item, spider): #持久化操作代碼 (方式1:寫入磁盤文件) return item #如果想實現另一種形式的持久化操作,則可以再定制一個管道類: class DoublekillPipeline_db(object): def process_item(self, item, spider): #持久化操作代碼 (方式1:寫入數據庫) return item
在settings.py開啟管道操作代碼為:
#下列結構為字典,字典中的鍵值表示的是即將被啟用執行的管道文件和其執行的優先級。 ITEM_PIPELINES = { 'doublekill.pipelines.DoublekillPipeline': 300, 'doublekill.pipelines.DoublekillPipeline_db': 200, } #上述代碼中,字典中的兩組鍵值分別表示會執行管道文件中對應的兩個管道類中的process_item方法,實現兩種不同形式的持久化操作。
五.Scrapy發起post請求:
- 問題:在之前代碼中,我們從來沒有手動的對start_urls列表中存儲的起始url進行過請求的發送,但是起始url的確是進行了請求的發送,那這是如何實現的呢?
- 解答:其實是因為爬蟲文件中的爬蟲類繼承到了Spider父類中的start_requests(self)這個方法,該方法就可以對start_urls列表中的url發起請求:
def start_requests(self): for u in self.start_urls: yield scrapy.Request(url=u,callback=self.parse)
【注意】該方法默認的實現,是對起始的url發起get請求,如果想發起post請求,則需要子類重寫該方法。
- 重寫start_requests方法,讓其發起post請求:
def start_requests(self): #請求的url post_url = 'http://fanyi.baidu.com/sug' # 表單數據 formdata = { 'kw': 'wolf', } # 發送post請求 yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse)