第71天: Python Scrapy 項目實戰


by 戴景波

爬蟲編寫流程

首先明確 Python 爬蟲代碼編寫的流程:先直接打開網頁,找到你想要的數據,就是走一遍流程。比如這個項目我要爬取歷史某一天所有比賽的賠率數據、每場比賽的比賽結果等。

那么我就先打開這個網址:https://live.leisu.com/wanchang?date=20190606 然后點擊“競彩”,再點擊“指數”,跳轉到另一個網址:https://live.leisu.com/3in1-2674547,然后就看到了想要的數據:各公司主隊獲勝賠率1.61、1.65等。

到此為止,開始動手通過代碼實現這個過程。

解析“爬蟲主程序.py” :(主程序包括四個函數)

## -*- coding: utf-8 -*-
ls_url = 'https://live.leisu.com/wanchang?date='#ls歷史https://live.leisu.com/wanchang?date=20190606
class LiveJiangSpider(scrapy.Spider):
    name = 'FBP'
    allowed_domains = ['leisu.com']
    def start_requests(self):
            d1='20190606' #歷史的比賽
            request = scrapy.http.FormRequest(ls_url + d1,callback=self.parseLs, meta={'d1': d1}) #歷史的比賽
            # request = scrapy.http.FormRequest(wl_url + d1,callback=self.parseWl, meta={'d1': d1})#未來的比賽
            yield request
    def parseLs(self,response):
        d2=response.meta['d1']
        sel=response.xpath
        racelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]
        for raceid in racelist:#raceid=['2674547'];raceid[0]=2674547
            item = PeilvItem()
            sel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]')
            if str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":
                item['cc']=""
            else:
                item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])
            if "周" in item['cc']:#取競彩-周一001等
                plurl='https://live.leisu.com/3in1-'+raceid[0]
                request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})
                yield request #並非return,yield壓隊列,parse函數將會被當做一個生成器使用。scrapy會逐一獲取parse方法中生成的結果,並沒有直接執行parse,循環完成后,再執行parse
    def parse(self, response):
        print('--------------into parse----------------------')
        item = response.meta['item']
        pv=response.xpath
        pl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'
        if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":
            item['li'] =  ''
        else:
            item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]
        if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":
            item['b5'] =  ''
        else:
            item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]
        yield item#程序在取得各個頁面的items前,會先處理完之前所有的request隊列里的請求,然后再提取items

首先導入我們需要的包:

import datetime
import sys
import requests
import scrapy
import time
import json
import scrapy.http
from peilv.items import PeilvItem
from lxml import etree

name = 'FBP'是定義爬取項目名稱,以便通過命令scrapy crawl FBP -o BaseData.csv獲取數據。

start_requests

https://live.leisu.com/wanchang?date=20190606 發送請求。(你可以打開這個網址,里邊是爬蟲程序爬取數據的最外層網站)
scrapy.http.FormRequest 方法:
第一個參數是請求的具體網址;
第二個參數是下一步調用的函數;
第三個參數 meta 是向調用函數傳遞的參數。

parseLs (parseWl 同理,不再重復講解)

主要用於解析次外層網頁數據。這里用 XPath 解析,也是比較容易掌握的解析方式。網頁結構如下:(通過 Google 瀏覽器打開https://live.leisu.com/wanchang?date=20190606 然后右鍵點擊網頁空白處點擊“查看網頁源代碼”,找到你需要爬取的核心數據部分,這里我要找每場比賽的信息,那么拷貝下來,然后以易於查看的規整方式列出,如下:)

<li class="list-item list-item-2674547 list-day-6-6 finished " data-id="2674547" data-status="8" data-eventid="2906" data-status-name="finished" data-nowtime="1559760300" data-realtime="1559764089" data-eventlevels="1" data-halftime="45,15" data-lottery="周三001,北單018," data-asian-name="name-0.25" data-daxiao-name="name-2.5" data-asian="1.125,0.25,0.78,0" data-daxiao="0.99,2.5,0.91,0" data-home-icon="8863b9e186e3580aa6dec29f19155d3a.png" data-away-icon="f84be480c54f0ff871b91fab14a36b36.png" style="height:41px;">
<div class="find-table layout-grid-tbody hide">
<div class="clearfix-row">
...
<span class="lab-round"> 0</span> 
<span class="lab-lottery"> 
<span class="text-jc">周三001</span> 
<span class="text-bd">北單018</span> 
<span class="text-zc"></span>
</span> 
......

parseLS函數里的下邊代碼,用sel代表response.xpath,結合上表中 xml 中的元素:獲取了比賽場次,存儲到item['cc']。

def parseLs(self,response):
	sel=response.xpath
	sel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]')
	if str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":
	    item['cc']=""
	else:
	    item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])
    	

此外,還要獲取比賽的賠率信息,但並不在當前這個網頁,而在更內層的網頁中,需要從當前網頁跳轉。
存儲賠率的內層網頁為 https://live.leisu.com/3in1-2674547,不同場次的比賽只有-后邊的數字是變化的,那么程序中只要循環構造對應的數字2674547就好了。發現這個數字剛好是 data-id。通過以下代碼實現獲取:

racelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]
for raceid in racelist:
    plurl='https://live.leisu.com/3in1-'+raceid[0]
    request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})
    yield request

在Request中加入meta,即可將meta傳遞給response。再提交該網頁請求到下一個函數parse。這里需要注意:parse中既返回item又生成新的request。

平時在parse中return item即可返回item,return request則生成新的request請求。如果我們將return換為yield的話即可既返回item又生成新的request。注意一旦使用了yield,那么parse方法中就不能有return了。

parse

網頁結構如下:(通過Google瀏覽器打開https://live.leisu.com/3in1-2674547 然后右鍵點擊網頁空白處點擊“查看網頁源代碼”,拷貝需要賠率的部分到文本文檔,換行操作后如下:

<tr class="td-data td-pd-8 f-s-12 color-666 bd-top " data-id="4">
<td> 
......
<td class="bd-left">
<div class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8">
<span class="float-left col-3"> 1.620 </span>
<span class="float-left col-3"> 3.600 </span> 
<span class="float-left col-3"> 5.250 </span>
</div>
......

通過以下代碼獲取賠率,首先由上一個函數parseLs通過scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})調用到下邊的parse方法,傳入plurl鏈接對應的網頁內容response,
同樣用response.xpath取出td中class為"bd-left"下邊div中class為"begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"再下邊span中class為"float-left col-3"的值。

def parse(self, response):
        print('--------------into parse----------------------')
        item = response.meta['item']
        pv=response.xpath
        pl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'
        if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":
            item['li'] =  ''
        else:
            item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]
        if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":
            item['b5'] =  ''
        else:
            item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]
        yield item#程序在取得各個頁面的items前,會先處理完之前所有的request隊列里的請求,然后再提取items

再通過//*判斷所有data-id為5下邊的pl_str是否為空,若不為空則將其賦值給item['li'],其他的item賦值同理。

這里重點講一下parse方法工作機制:因為使用的yield,而不是return。parse函數將會被當做一個生成器使用。

scrapy會逐一獲取parse方法中生成的結果,如果是request則加入爬取隊列,如果是item類型則使用pipeline處理,其他類型則返回錯誤信息。

scrapy取到第一部分的request不會立馬就去發送這個request,只是把這個request放到隊列里,然后接着從生成器里獲取;

取盡第一部分的request,然后再獲取第二部分的item,取到item了,就會放到對應的pipeline里處理;

parse()方法作為回調函數(callback)賦值給了Request,指定parse()方法來處理這些請求 scrapy.Request(url, callback=self.parse);

Request對象經過調度,執行生成 scrapy.http.response()的響應對象,並送回給parse()方法,直到調度器中沒有Request(遞歸的思路);

程序在取得各個頁面的items前,會先處理完之前所有的request隊列里的請求,然后再提取items。

以上過程Scrapy引擎和調度器將負責到底。

本篇的全部源碼(可執行):(github.com.cn/acredjb/FBP有完整項目爬蟲源碼)

python Scrapy 項目實戰

總結

以上我們實現了一個爬蟲實戰項目,通過分析網頁結構,借助 Scrapy 框架獲取數據,為今后的數據分析做准備。

代碼地址

示例代碼:Python-100-days-day071

關注公眾號:python技術,回復"python"一起學習交流


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM