第71天： Python Scrapy 項目實戰

本文轉載自查看原文 2020-05-31 15:46 719 python

by 戴景波

爬蟲編寫流程

首先明確 Python 爬蟲代碼編寫的流程：先直接打開網頁，找到你想要的數據，就是走一遍流程。比如這個項目我要爬取歷史某一天所有比賽的賠率數據、每場比賽的比賽結果等。

那么我就先打開這個網址：https://live.leisu.com/wanchang?date=20190606 然后點擊“競彩”，再點擊“指數”，跳轉到另一個網址：https://live.leisu.com/3in1-2674547，然后就看到了想要的數據：各公司主隊獲勝賠率1.61、1.65等。

到此為止，開始動手通過代碼實現這個過程。

解析“爬蟲主程序.py” ：（主程序包括四個函數）

## -*- coding: utf-8 -*-
ls_url = 'https://live.leisu.com/wanchang?date='#ls歷史https://live.leisu.com/wanchang?date=20190606
class LiveJiangSpider(scrapy.Spider):
    name = 'FBP'
    allowed_domains = ['leisu.com']
    def start_requests(self):
            d1='20190606' #歷史的比賽
            request = scrapy.http.FormRequest(ls_url + d1,callback=self.parseLs, meta={'d1': d1}) #歷史的比賽
            # request = scrapy.http.FormRequest(wl_url + d1,callback=self.parseWl, meta={'d1': d1})#未來的比賽
            yield request
    def parseLs(self,response):
        d2=response.meta['d1']
        sel=response.xpath
        racelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]
        for raceid in racelist:#raceid=['2674547'];raceid[0]=2674547
            item = PeilvItem()
            sel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]')
            if str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":
                item['cc']=""
            else:
                item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])
            if "周" in item['cc']:#取競彩-周一001等
                plurl='https://live.leisu.com/3in1-'+raceid[0]
                request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})
                yield request #並非return，yield壓隊列，parse函數將會被當做一個生成器使用。scrapy會逐一獲取parse方法中生成的結果，並沒有直接執行parse，循環完成后，再執行parse
    def parse(self, response):
        print('--------------into parse----------------------')
        item = response.meta['item']
        pv=response.xpath
        pl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'
        if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":
            item['li'] =  ''
        else:
            item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]
        if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":
            item['b5'] =  ''
        else:
            item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]
        yield item#程序在取得各個頁面的items前，會先處理完之前所有的request隊列里的請求，然后再提取items

首先導入我們需要的包:

import datetime
import sys
import requests
import scrapy
import time
import json
import scrapy.http
from peilv.items import PeilvItem
from lxml import etree

name = 'FBP'是定義爬取項目名稱，以便通過命令scrapy crawl FBP -o BaseData.csv獲取數據。

start_requests

向 https://live.leisu.com/wanchang?date=20190606 發送請求。（你可以打開這個網址，里邊是爬蟲程序爬取數據的最外層網站）
scrapy.http.FormRequest 方法：
第一個參數是請求的具體網址；
第二個參數是下一步調用的函數；
第三個參數 meta 是向調用函數傳遞的參數。

parseLs （parseWl 同理，不再重復講解）

主要用於解析次外層網頁數據。這里用 XPath 解析，也是比較容易掌握的解析方式。網頁結構如下：（通過 Google 瀏覽器打開https://live.leisu.com/wanchang?date=20190606 然后右鍵點擊網頁空白處點擊“查看網頁源代碼”，找到你需要爬取的核心數據部分，這里我要找每場比賽的信息，那么拷貝下來，然后以易於查看的規整方式列出，如下：）

<li class="list-item list-item-2674547 list-day-6-6 finished " data-id="2674547" data-status="8" data-eventid="2906" data-status-name="finished" data-nowtime="1559760300" data-realtime="1559764089" data-eventlevels="1" data-halftime="45,15" data-lottery="周三001,北單018," data-asian-name="name-0.25" data-daxiao-name="name-2.5" data-asian="1.125,0.25,0.78,0" data-daxiao="0.99,2.5,0.91,0" data-home-icon="8863b9e186e3580aa6dec29f19155d3a.png" data-away-icon="f84be480c54f0ff871b91fab14a36b36.png" style="height:41px;">
<div class="find-table layout-grid-tbody hide">
<div class="clearfix-row">
...
<span class="lab-round"> 0</span> 
<span class="lab-lottery"> 
<span class="text-jc">周三001</span> 
<span class="text-bd">北單018</span> 
<span class="text-zc"></span>
</span> 
......

parseLS函數里的下邊代碼，用sel代表response.xpath，結合上表中 xml 中的元素：獲取了比賽場次，存儲到item['cc']。

def parseLs(self,response):
	sel=response.xpath
	sel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]')
	if str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":
	    item['cc']=""
	else:
	    item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])

此外，還要獲取比賽的賠率信息，但並不在當前這個網頁，而在更內層的網頁中，需要從當前網頁跳轉。
存儲賠率的內層網頁為 https://live.leisu.com/3in1-2674547，不同場次的比賽只有-后邊的數字是變化的，那么程序中只要循環構造對應的數字2674547就好了。發現這個數字剛好是 data-id。通過以下代碼實現獲取：

racelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]
for raceid in racelist:
    plurl='https://live.leisu.com/3in1-'+raceid[0]
    request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})
    yield request

在Request中加入meta，即可將meta傳遞給response。再提交該網頁請求到下一個函數parse。這里需要注意：parse中既返回item又生成新的request。

平時在parse中return item即可返回item，return request則生成新的request請求。如果我們將return換為yield的話即可既返回item又生成新的request。注意一旦使用了yield，那么parse方法中就不能有return了。

parse

網頁結構如下：（通過Google瀏覽器打開https://live.leisu.com/3in1-2674547 然后右鍵點擊網頁空白處點擊“查看網頁源代碼”，拷貝需要賠率的部分到文本文檔，換行操作后如下：

<tr class="td-data td-pd-8 f-s-12 color-666 bd-top " data-id="4">
<td> 
......
<td class="bd-left">
<div class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8">
<span class="float-left col-3"> 1.620 </span>
<span class="float-left col-3"> 3.600 </span> 
<span class="float-left col-3"> 5.250 </span>
</div>
......

通過以下代碼獲取賠率，首先由上一個函數parseLs通過scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})調用到下邊的parse方法，傳入plurl鏈接對應的網頁內容response，
同樣用response.xpath取出td中class為"bd-left"下邊div中class為"begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"再下邊span中class為"float-left col-3"的值。

def parse(self, response):
        print('--------------into parse----------------------')
        item = response.meta['item']
        pv=response.xpath
        pl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'
        if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":
            item['li'] =  ''
        else:
            item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]
        if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":
            item['b5'] =  ''
        else:
            item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]
        yield item#程序在取得各個頁面的items前，會先處理完之前所有的request隊列里的請求，然后再提取items

再通過//*判斷所有data-id為5下邊的pl_str是否為空，若不為空則將其賦值給item['li']，其他的item賦值同理。

這里重點講一下parse方法工作機制：因為使用的yield，而不是return。parse函數將會被當做一個生成器使用。

scrapy會逐一獲取parse方法中生成的結果，如果是request則加入爬取隊列，如果是item類型則使用pipeline處理，其他類型則返回錯誤信息。

scrapy取到第一部分的request不會立馬就去發送這個request，只是把這個request放到隊列里，然后接着從生成器里獲取；

取盡第一部分的request，然后再獲取第二部分的item，取到item了，就會放到對應的pipeline里處理；

parse()方法作為回調函數(callback)賦值給了Request，指定parse()方法來處理這些請求 scrapy.Request(url, callback=self.parse)；

Request對象經過調度，執行生成 scrapy.http.response()的響應對象，並送回給parse()方法，直到調度器中沒有Request（遞歸的思路）；

程序在取得各個頁面的items前，會先處理完之前所有的request隊列里的請求，然后再提取items。

以上過程Scrapy引擎和調度器將負責到底。

本篇的全部源碼（可執行）：(github.com.cn/acredjb/FBP有完整項目爬蟲源碼)

python Scrapy 項目實戰

總結

以上我們實現了一個爬蟲實戰項目，通過分析網頁結構，借助 Scrapy 框架獲取數據，為今后的數據分析做准備。

代碼地址

示例代碼：Python-100-days-day071

關注公眾號：python技術，回復"python"一起學習交流

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy項目實戰第70天： Python Scrapy 爬蟲框架及搭建 Python爬蟲 ---scrapy框架初探及實戰 Python爬蟲之Scrapy天氣預報實戰 python爬蟲框架scrapy 豆瓣實戰 Flask實戰第68天：項目上線部署 Python爬蟲實戰，Scrapy實戰，抓取並分析天氣數據 Python：scrapy 爬取40天天氣預報 Python爬蟲實戰，Scrapy實戰，大眾點評爬蟲 Python -- Scrapy 框架簡單介紹（Scrapy 安裝及項目創建）