python網絡爬蟲之使用scrapy自動登錄網站

本文轉載自查看原文 2017-10-17 22:43 4881 python網絡爬蟲

前面曾經介紹過requests實現自動登錄的方法。這里介紹下使用scrapy如何實現自動登錄。還是以csdn網站為例。

Scrapy使用FormRequest來登錄並遞交數據給服務器。只是帶有額外的formdata參數用來傳送登錄的表單信息（用戶名和密碼），為了使用這個類，需要使用以下語句導入：from scrapy.http import FormRequest

那么關於登錄過程中使用cookie值，scrapy會自動為我們處理cookie，只要我們登錄成功了，它就會像一個瀏覽器一樣自動傳送cookie

首先爬蟲中定義start_requests

def start_requests(self):


    return [Request("http://passport.csdn.net/account/login",meta={'cookiejar':1},callback=self.post_login,method="POST")]

其中采用Requests的方法首先訪問登錄網站。meta屬性是字典，字典格式即{‘key’:'value'}，字典是一種可變容器模型，可存儲任意類型對象。

request中meta參數的作用是傳遞信息給下一個函數，這些信息可以是任意類型的，比如值、字符串、列表、字典......方法是把要傳遞的信息賦值給meta字典的鍵. 上面start_requests中鍵‘cookiejar’是一個特殊的鍵，scrapy在meta中見到此鍵后，會自動將cookie傳遞到要callback的函數中。既然是鍵(key)，就需要有值(value)與之對應，例子中給了數字1，也可以是其他值，比如任意一個字符串。

Callback就是連接到了登錄網站后下一步需要調的函數。下面來看下post_login如何實現

def post_login(self,response):
    html=BeautifulSoup(response.text,"html.parser")
    for input in html.find_all('input'):
        if 'name' in input.attrs and input.attrs['name'] == 'lt':
            lt=input.attrs['value']
        if 'name' in input.attrs and input.attrs['name'] == 'execution':
            e1=input.attrs['value']
    data={'username':'xxxx','password':'xxxxx','lt':lt,'execution':e1,'_eventId':'submit'}
    return [FormRequest.from_response(response,
                                      meta={'cookiejar':response.meta['cookiejar']},
                                      headers=self.header,
                                      formdata=data,
                                      callback=self.after_login,)]

首先是獲取lt,execution字段的值，具體在之前介紹requests的帖子中有解釋。

然后調用FormRequest.from_response。這個方法的作用是從response中返回的網頁中構造表單數據，因此第一個參數是response。這里response返回的網頁也就是前面Requests中調用的http://passport.csdn.net/account/login

接下來的參數是meta。Heasers,formadata以及callback。這里的callback有就是指向登錄后的函數。

after_login的實現如下。

def after_login(self,response):
    print 'after login'
    print response.status
    header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36'}
    return [Request("http://my.csdn.net/my/mycsdn",meta={'cookiejar':response.meta['cookiejar']},headers=header,callback=self.parse)]
def parse(self, response):
    print response.text.decode('utf-8').encode(self.type)

運行后我們來看下記錄的log。從下面的紅色標紅部分可以看到。在向http://passport.csdn.net/account/login發起登錄請求后，scrapy緊接着

向http://passport.csdn.net/account/login;jsessionid=8B4A62EA09BBB5F1FBF4D921B64FECE6.tomcat2  發起建立請求。這也就是調用FormRequest.from_response觸發的。在這里后面連接的jsessionid值也就是之前在訪問登錄網站的時候獲取的會話ID，在這里scrapy自動給添加上了

2017-10-16 22:17:34 [scrapy] INFO: Spider opened

2017-10-16 22:17:34 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2017-10-16 22:17:34 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023

2017-10-16 22:17:34 [scrapy] DEBUG: Crawled (404) <GET http://passport.csdn.net/robots.txt> (referer: None)

2017-10-16 22:17:34 [scrapy] DEBUG: Crawled (200) <POST http://passport.csdn.net/account/login> (referer: None)
 2017-10-16 22:17:34 [scrapy] DEBUG: Crawled (200) <POST http://passport.csdn.net/account/login;jsessionid=8B4A62EA09BBB5F1FBF4D921B64FECE6.tomcat2> (referer: http://www.csdn.net/)
 2017-10-16 22:17:35 [scrapy] DEBUG: Crawled (200) <GET http://my.csdn.net/robots.txt> (referer: None)
 2017-10-16 22:17:35 [scrapy] DEBUG: Crawled (200) <GET http://my.csdn.net/my/mycsdn> (referer: http://passport.csdn.net/account/login;jsessionid=8B4A62EA09BBB5F1FBF4D921B64FECE6.tomcat2)
 2017-10-16 22:17:35 [scrapy] INFO: Closing spider (finished)
 2017-10-16 22:17:35 [scrapy] INFO: Dumping Scrapy stats:
 {'downloader/request_bytes': 2022,

從fiddler中抓取的數據可以看到jsessionid是在訪問登錄網站后，網站返回的response 消息的header消息中。也就是網站設置的cookie值

完整的代碼：

# -*- coding:UTF-8 -*- ＃
from scrapy.spiders import Spider,CrawlSpider,Rule
from scrapy.selector import Selector
from scrapy.http import Request
from scrapy import FormRequest

from test2.items import Test2Item
from scrapy.utils.response import open_in_browser
from scrapy.linkextractors import LinkExtractor
from bs4 import BeautifulSoup
import sys


class testSpider(Spider):
    name="test2"
    allowd_domains=['http://www.csdn.net/']
    header={'host':'passport.csdn.net','User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36','Referer':'http://www.csdn.net/'}
    start_urls=["http://www.csdn.net/"]
    reload(sys)
    sys.setdefaultencoding('utf-8')
    type = sys.getfilesystemencoding()
    def start_requests(self):

        return [Request("http://passport.csdn.net/account/login",meta={'cookiejar':1},callback=self.post_login,method="POST")]

    def post_login(self,response):
        html=BeautifulSoup(response.text,"html.parser")
        for input in html.find_all('input'):
            if 'name' in input.attrs and input.attrs['name'] == 'lt':
                lt=input.attrs['value']
            if 'name' in input.attrs and input.attrs['name'] == 'execution':
                e1=input.attrs['value']
        data={'username':'xxxx','password':'xxxxx','lt':lt,'execution':e1,'_eventId':'submit'}
        return [FormRequest.from_response(response,
                                          meta={'cookiejar':response.meta['cookiejar']},
                                          headers=self.header,
                                          formdata=data,
                                          callback=self.after_login,)]
    def after_login(self,response):
        print 'after login'
        print response.status
        header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36'}
        return [Request("http://my.csdn.net/my/mycsdn",meta={'cookiejar':response.meta['cookiejar']},headers=header,callback=self.parse)]
    def parse(self, response):
        print response.text.decode('utf-8').encode(self.type)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python網絡爬蟲之使用scrapy自動爬取多個網頁 python爬蟲之scrapy模擬登錄【python 網絡爬蟲】之scrapy系列 python網絡爬蟲之使用scrapy爬取圖片 Python爬蟲學習（三）使用Scrapy庫 Python爬蟲之Scrapy框架使用selenium Python爬蟲框架Scrapy安裝使用步驟 Python爬蟲從入門到放棄（二十四）之 Scrapy登錄知乎 16.Python網絡爬蟲之Scrapy框架（CrawlSpider）《python3網絡爬蟲開發實戰》--Scrapy