爬蟲：利用cookies跳過登陸驗證碼

本文轉載自查看原文 2019-01-03 10:07 1312 爬蟲

						</div>
							            <div id="content_views" class="markdown_views">
						<!-- flowchart 箭頭圖標 勿刪 -->
						<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>
						<h1 id="前言"><a name="t0"></a>前言</h1>

在爬取某些網頁時，登陸界面時經常遇到的一個坎，而現在大多數的網站在登陸時都會要求用戶填寫驗證碼。當然，我們可以設計一套機器學習的算法去破解驗證碼，然而，驗證碼的形式多種多樣，稍微變一下（有些甚至是手機短信驗證），整套算法可能就完全無效了，所以去強行破解驗證碼是一個吃力不討好的活。本文會以知乎網站為例，利用python中的request模塊進行的一個模擬登陸，其中用到了reqeust.session下的cookies來跳過登陸這一環節。

方案詳述

下面以模擬登陸知乎為例，利用python3.6進行詳細的過程敘述，建議使用pycharm作為IDE。
首先，我們要將headers給設置好

agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
headers = {
    "HOST": "www.zhihu.com",
    "Referer": "http://www.zhihu.com",
    "User-Agent": agent
}
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2
    
    
   
   
           3
    
    
   
   
           4
    
    
   
   
           5
    
    
   
   
           6

接着，用賬號成功登陸一次知乎，並按下“F12”（Chrome瀏覽器），找到Resources下的Cookies，將顯示的Cookies全都復制下來，即下圖紅框中的”Name”和”Value”。

圖1：如何找到Cookies
圖中一些個人隱私信息已經擦去，圖可能有點看不清，但應該能看明白，湊合一下吧~
將復制下來的Cookies寫成字典的形式由於隱私問題，下面是不完整的Cookies。

cookies = {
    "cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********",
    "r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********",
    "z_c0" : "Mi4xWVduN0FRQUFB**********",
    "q_c1" : "108429c2422245a0********",
    "d_c0" : "ADBCEDC-5guPTr*********",
    "aliyungf_tc" : "AQAAAAaQE*************",
    "_zap" : "92146d2b-**********",
    "_xsrf" : "01124268-4638-***************",
    "__utmz" : "51854390.15038440***********",
    "__utmv" : "51854390.000**************",
    "__utma" : "51854390.4***********"
}
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2
    
    
   
   
           3
    
    
   
   
           4
    
    
   
   
           5
    
    
   
   
           6
    
    
   
   
           7
    
    
   
   
           8
    
    
   
   
           9
    
    
   
   
           10
    
    
   
   
           11
    
    
   
   
           12
    
    
   
   
           13

然后創建一個session對象，將headers和cookies賦給session

import Requests

session = Requests.session()
session.headers = headers
requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2
    
    
   
   
           3
    
    
   
   
           4
    
    
   
   
           5

其中，值得注意的是，session.headers可以是dict，所以直接賦值沒問題，而session.cookies必須是<class ‘requests.cookies.RequestsCookieJar’>，所以要利用requests.utils.add_dict_to_cookiejar進行賦值。
好了，現在我們已經完事具備了，可以直接訪問知乎了，就是這么簡單。

url = "https://www.zhihu.com/"
response = session.get(url)
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2

比如這個時候，我們想把訪問到的頁面給保存下來，我們就可以這么干。

with open("test.html", "wb") as f:
    f.write(response.text.encode('utf-8'))
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2

登陸進去了之后，就是想怎么來，就怎么來了~
這里還要補充一點就是，我們如果覺得把cookies寫在源代碼中不太雅觀的話，可以將其保存到本地文件當中

import json

def save_cookies(cookies):
    cookies_file = 'export.json'
    with open(cookies_file, 'w') as f:
        json.dump(cookies, f)
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2
    
    
   
   
           3
    
    
   
   
           4
    
    
   
   
           5
    
    
   
   
           6

保存成Json格式之后，可以在cookies過期之后，直接在文件當中修改cookies，要讀取cookies也很方便

def load_cookies():
    cookie_json = {}
    try:
        with open('export.json', 'r') as cookies_file:
            cookie_json = json.load(cookies_file)
    except:
        print ("Json load failed")
    finally:
        return cookie_json
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2
    
    
   
   
           3
    
    
   
   
           4
    
    
   
   
           5
    
    
   
   
           6
    
    
   
   
           7
    
    
   
   
           8
    
    
   
   
           9

值得注意的是，這個時候出來的cookies也是dict類型的，別忘了轉換成cookiejar。

完整代碼

我們可以把上面的代碼整理一下，寫成下面這樣
文件1：用來存儲cookies

import json


def save_cookies(cookies):
    cookies_file = 'export.json'
    with open(cookies_file, 'w') as f:
        json.dump(cookies, f)


def main():
    cookies = {
        "cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********",
        "r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********",
        "z_c0" : "Mi4xWVduN0FRQUFB**********",
        "q_c1" : "108429c2422245a0********",
        "d_c0" : "ADBCEDC-5guPTr*********",
        "aliyungf_tc" : "AQAAAAaQE*************",
        "_zap" : "92146d2b-**********",
        "_xsrf" : "01124268-4638-***************",
        "__utmz" : "51854390.15038440***********",
        "__utmv" : "51854390.000**************",
        "__utma" : "51854390.4***********"
    }
    save_cookies(cookies)


if __name__ == '__main__':
    main()
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2
    
    
   
   
           3
    
    
   
   
           4
    
    
   
   
           5
    
    
   
   
           6
    
    
   
   
           7
    
    
   
   
           8
    
    
   
   
           9
    
    
   
   
           10
    
    
   
   
           11
    
    
   
   
           12
    
    
   
   
           13
    
    
   
   
           14
    
    
   
   
           15
    
    
   
   
           16
    
    
   
   
           17
    
    
   
   
           18
    
    
   
   
           19
    
    
   
   
           20
    
    
   
   
           21
    
    
   
   
           22
    
    
   
   
           23
    
    
   
   
           24
    
    
   
   
           25
    
    
   
   
           26
    
    
   
   
           27
    
    
   
   
           28

文件2：用來模擬登陸

import requests


def load_cookies():
    cookie_json = {}
    try:
        with open('export.json', 'r') as cookies_file:
            cookie_json = json.load(cookies_file)
    except:
        print ("Json load failed")
    finally:
        return cookie_json


def main():
    agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
    headers = {
        "HOST": "www.zhihu.com",
        "Referer": "http://www.zhihu.com",
        "User-Agent": agent
    }
    session = requests.session()
    session.headers = headers
    requests.utils.add_dict_to_cookiejar(session.cookies, load_cookies())
    url = "https://www.zhihu.com/"
    response = session.get(url)
    with open("test.html", "wb") as f:
        f.write(response.text.encode('utf-8'))
    print ("Done")


if __name__ == '__main__':
    main()
   
   
  
  
          
    
    
   
   
           1
    
    
   
   
           2
    
    
   
   
           3
    
    
   
   
           4
    
    
   
   
           5
    
    
   
   
           6
    
    
   
   
           7
    
    
   
   
           8
    
    
   
   
           9
    
    
   
   
           10
    
    
   
   
           11
    
    
   
   
           12
    
    
   
   
           13
    
    
   
   
           14
    
    
   
   
           15
    
    
   
   
           16
    
    
   
   
           17
    
    
   
   
           18
    
    
   
   
           19
    
    
   
   
           20
    
    
   
   
           21
    
    
   
   
           22
    
    
   
   
           23
    
    
   
   
           24
    
    
   
   
           25
    
    
   
   
           26
    
    
   
   
           27
    
    
   
   
           28
    
    
   
   
           29
    
    
   
   
           30
    
    
   
   
           31
    
    
   
   
           32
    
    
   
   
           33

注意本文創作時間，如果閱讀時已經過了很久，代碼可能不起效。
如有不足，還請指正~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 利用google kaptcha完成登陸動態驗證碼利用htmlunit登陸帶驗證碼圖片的網站 Python3爬蟲實戰【點觸驗證碼】 — 模擬登陸bilibili 利用selenium庫自動執行滑動驗證碼模擬登陸網頁登陸驗證之圖片驗證碼 C# winform登陸框驗證碼的實現 SpringSceurity(5)---短信驗證碼登陸功能驗證碼破解 | Selenium模擬登陸微博 python 實現（附帶驗證碼識別）的模擬登陸 MVC5----用戶登陸及驗證碼