Scrapy中使用cookie免於驗證登錄和模擬登錄

引言

python爬蟲我認為最困難的問題一個是ip代理，另外一個就是模擬登錄了，更操蛋的就是模擬登錄了之后還有驗證碼，真的是不讓人省心，不過既然有了反爬蟲，那么就有反反爬蟲的策略，這里就先介紹一個cookie模擬登陸，后續還有seleminum+phantomjs模擬瀏覽器登錄的文章。還不知道cookie是什么朋友們，可以點擊這里

cookie提取方法：

打開谷歌瀏覽器或者火狐瀏覽器，如果是谷歌瀏覽器的按F12這個鍵就會跳出來瀏覽器控制台，然后點擊Network，之后就是刷新網頁開始抓包了，之后在抓到的頁面中隨便打開一個，就能看到cokie了，但是這里的cookie並不符合python中的格式，因此需要轉換格式，下面提供了轉換的代碼

# -*- coding: utf-8 -*-

class transCookie:
def __init__(self, cookie):
    self.cookie = cookie

def stringToDict(self):
    '''
    將從瀏覽器上Copy來的cookie字符串轉化為Scrapy能使用的Dict
    :return:
    '''
    itemDict = {}
    items = self.cookie.split(';')
    for item in items:
        key = item.split('=')[0].replace(' ', '')
        value = item.split('=')[1]
        itemDict[key] = value
    return itemDict

if __name__ == "__main__":
cookie = "你復制的cookie"
trans = transCookie(cookie)
print trans.stringToDict()

補充說明：

只需要將你網頁上的cookie復制到上述代碼中直接運行就可以了

使用cookie操作scrapy

直接擼代碼

# -*- coding: utf-8 -*-
import scrapy
from scrapy.conf import settings #從settings文件中導入Cookie，這里也可以室友from scrapy.conf import settings.COOKIE

class DemoSpider(scrapy.Spider):
name = "demo"
#allowed_domains = ["csdn.com"]
start_urls = ["http://write.blog.csdn.net/postlist"]
cookie = settings['COOKIE']  # 帶着Cookie向網頁發請求\
headers = {
    'Connection': 'keep - alive',  # 保持鏈接狀態
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'
}
def start_requests(self):
    yield scrapy.Request(url=self.start_urls[0],headers=self.headers,cookies=self.cookie)# 這里帶着cookie發出請求

def parse(self, response):
    print response.body

說明

這里是scrapy工程目錄下spiders目錄下的主要的解析網頁的py文件相信學過scrapy的應該不會陌生，上述代碼中的cookie值是放在Settings文件中的，因此使用的時候需要導入，當然你也可以直接將cookie粘貼到這個文件中

注意

雖說這里使用直接使用cookie可以省去很多麻煩，但是cookie的生命周期特別的短，不過小型的項目足夠使用了，向那些需要爬兩三天甚至幾個月的項目就不適用了，因此在隔一段時間就要重新換cookie的值，雖說有很多麻煩，但是我還是比較喜歡這種方法的，因為可以省去不少腦筋

作者說

本人秉着方便他人的想法才開始寫技術文章的，因為對於自學的人來說想要找到系統的學習教程很困難，這一點我深有體會，我也是在不斷的摸索中才小有所成，如果你們覺得我寫的不錯就幫我推廣一下，讓更多的人看到。另外如果有什么錯誤的地方也要及時聯系我，方便我改進，謝謝大家對我的支持。

最后歡迎大家看看我的其他scrapy文章

scrapy設置代理ip

scrapy架構初探

scrapy初試

scrapy下載器中間件

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy用Cookie實現模擬登錄 python中使用cookie進行模擬登錄 scrapy模擬登錄值攜帶cookie django中使用cookie和session驗證用戶是否已登錄驗證碼處理+cookie模擬登錄 python之cookie, cookiejar 模擬登錄繞過驗證 Scrapy模擬登錄知乎 PHP cURL 使用cookie 模擬登錄 python爬蟲使用cookie模擬登錄 cookie模擬登錄