第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

本文轉載自查看原文 2017-07-29 15:30 13420 Python

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄

模擬瀏覽器登錄

start_requests()方法，可以返回一個請求給爬蟲的起始網站，這個返回的請求相當於start_urls，start_requests()返回的請求會替代start_urls里的請求

Request()get請求，可以設置，url、cookie、回調函數

FormRequest.from_response()表單post提交，第一個必須參數，上一次響應cookie的response對象，其他參數，cookie、url、表單內容等

yield Request()可以將一個新的請求返回給爬蟲執行

在發送請求時cookie的操作，
meta={'cookiejar':1}表示開啟cookie記錄，首次請求時寫在Request()里
meta={'cookiejar':response.meta['cookiejar']}表示使用上一次response的cookie，寫在FormRequest.from_response()里post授權
meta={'cookiejar':True}表示使用授權后的cookie訪問需要登錄查看的頁面

獲取Scrapy框架Cookies

請求Cookie
Cookie = response.request.headers.getlist('Cookie')
print(Cookie)

響應Cookie
Cookie2 = response.headers.getlist('Set-Cookie')
print(Cookie2)

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest

class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = 'pach'                                           #設置爬蟲名稱
    allowed_domains = ['edu.iqianyue.com']                  #爬取域名
    # start_urls = ['http://edu.iqianyue.com/index_user_login.html']     #爬取網址,只適於不需要登錄的請求，因為沒法設置cookie等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #設置瀏覽器用戶代理

    def start_requests(self):       #用start_requests()方法,代替start_urls
        """第一次請求一下登錄頁面，設置開啟cookie使其得到cookie，設置回調函數"""
        return [Request('http://edu.iqianyue.com/index_user_login.html',meta={'cookiejar':1},callback=self.parse)] def parse(self, response):     #parse回調函數

        data = {                    #設置用戶登錄信息，對應抓包得到字段
            'number':'adc8868',
            'passwd':'279819',
            'submit':''
            }

        # 響應Cookie
        Cookie1 = response.headers.getlist('Set-Cookie')   #查看一下響應Cookie，也就是第一次訪問注冊頁面時后台寫入瀏覽器的Cookie
        print(Cookie1) print('登錄中')
        """第二次用表單post請求，攜帶Cookie、瀏覽器代理、用戶登錄信息，進行登錄給Cookie授權"""
        return [FormRequest.from_response(response, url='http://edu.iqianyue.com/index_user_login',   #真實post地址
                                          meta={'cookiejar':response.meta['cookiejar']}, headers=self.header, formdata=data, callback=self.next, )] def next(self,response):
        a = response.body.decode("utf-8")   #登錄后可以查看一下登錄響應信息
        # print(a)
        """登錄后請求需要登錄才能查看的頁面，如個人中心，攜帶授權后的Cookie請求"""
        yield Request('http://edu.iqianyue.com/index_user_index.html',meta={'cookiejar':True},callback=self.next2) def next2(self,response):
        # 請求Cookie
        Cookie2 = response.request.headers.getlist('Cookie') print(Cookie2)

        body = response.body  # 獲取網頁內容字節類型
        unicode_body = response.body_as_unicode()  # 獲取網站內容字符串類型

        a = response.xpath('/html/head/title/text()').extract()  #得到個人中心頁面
        print(a)

模擬瀏覽器登錄2

第一步、

爬蟲的第一次訪問，一般用戶登錄時，第一次訪問登錄頁面時，后台會自動寫入一個Cookies到瀏覽器，所以我們的第一次主要是獲取到響應Cookies

首先訪問網站的登錄頁面，如果登錄頁面是一個獨立的頁面，我們的爬蟲第一次應該從登錄頁面開始，如果登錄頁面不是獨立的頁面如 js 彈窗，那么我們的爬蟲可以從首頁開始

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re

class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = 'pach'                                           #設置爬蟲名稱
    allowed_domains = ['dig.chouti.com']                    #爬取域名
    # start_urls = ['']                                     #爬取網址,只適於不需要登錄的請求，因為沒法設置cookie等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #設置瀏覽器用戶代理

    def start_requests(self):
        """第一次請求一下登錄頁面，設置開啟cookie使其得到cookie，設置回調函數"""
        return [Request('http://dig.chouti.com/',meta={'cookiejar':1},callback=self.parse)] def parse(self, response):
        # 響應Cookies
        Cookie1 = response.headers.getlist('Set-Cookie')                            #查看一下響應Cookie，也就是第一次訪問注冊頁面時后台寫入瀏覽器的Cookie
        print('后台首次寫入的響應Cookies：',Cookie1)

        data = {                                                                    # 設置用戶登錄信息，對應抓包得到字段
            'phone': '8615284816568',
            'password': '279819',
            'oneMonth': '1'
        }

        print('登錄中....!')
        """第二次用表單post請求，攜帶Cookie、瀏覽器代理、用戶登錄信息，進行登錄給Cookie授權"""
        return [FormRequest.from_response(response, url='http://dig.chouti.com/login',                        #真實post地址
                                          meta={'cookiejar':response.meta['cookiejar']}, headers=self.header, formdata=data, callback=self.next, )] def next(self,response):
        # 請求Cookie
        Cookie2 = response.request.headers.getlist('Cookie') print('登錄時攜帶請求的Cookies：',Cookie2)

        jieg = response.body.decode("utf-8")   #登錄后可以查看一下登錄響應信息
        print('登錄響應結果：',jieg)

        print('正在請需要登錄才可以訪問的頁面....!')

        """登錄后請求需要登錄才能查看的頁面，如個人中心，攜帶授權后的Cookie請求"""
        yield Request('http://dig.chouti.com/user/link/saved/1',meta={'cookiejar':True},callback=self.next2) def next2(self,response):
        # 請求Cookie
        Cookie3 = response.request.headers.getlist('Cookie') print('查看需要登錄才可以訪問的頁面攜帶Cookies：',Cookie3)

        leir = response.xpath('//div[@class="tu"]/a/text()').extract()  #得到個人中心頁面
        print('最終內容',leir)
        leir2 = response.xpath('//div[@class="set-tags"]/a/text()').extract()  # 得到個人中心頁面
        print(leir2)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [爬蟲框架scrapy]scrapy的安裝爬蟲(十八)：Scrapy框架(五) Scrapy通用爬蟲 scrapy爬蟲框架介紹 python爬蟲之Scrapy框架爬蟲之scrapy框架爬蟲之Scrapy框架介紹爬蟲框架之Scrapy 5、爬蟲系列之scrapy框架爬蟲框架之Scrapy（四 ImagePipeline） scrapy爬蟲框架