</div>
<div id="content_views" class="markdown_views">
<!-- flowchart 箭頭圖標 勿刪 -->
<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>
<h1 id="前言"><a name="t0"></a>前言</h1>
在爬取某些網頁時,登陸界面時經常遇到的一個坎,而現在大多數的網站在登陸時都會要求用戶填寫驗證碼。當然,我們可以設計一套機器學習的算法去破解驗證碼,然而,驗證碼的形式多種多樣,稍微變一下(有些甚至是手機短信驗證),整套算法可能就完全無效了,所以去強行破解驗證碼是一個吃力不討好的活。本文會以知乎網站為例,利用python中的request模塊進行的一個模擬登陸,其中用到了reqeust.session下的cookies來跳過登陸這一環節。
方案詳述
下面以模擬登陸知乎為例,利用python3.6進行詳細的過程敘述,建議使用pycharm作為IDE。
首先,我們要將headers給設置好
agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
headers = {
"HOST": "www.zhihu.com",
"Referer": "http://www.zhihu.com",
"User-Agent": agent
}
- 1
- 2
- 3
- 4
- 5
- 6
接着,用賬號成功登陸一次知乎,並按下“F12”(Chrome瀏覽器),找到Resources下的Cookies,將顯示的Cookies全都復制下來,即下圖紅框中的”Name”和”Value”。

圖中一些個人隱私信息已經擦去,圖可能有點看不清,但應該能看明白,湊合一下吧~
將復制下來的Cookies寫成字典的形式由於隱私問題,下面是不完整的Cookies。
cookies = {
"cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********",
"r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********",
"z_c0" : "Mi4xWVduN0FRQUFB**********",
"q_c1" : "108429c2422245a0********",
"d_c0" : "ADBCEDC-5guPTr*********",
"aliyungf_tc" : "AQAAAAaQE*************",
"_zap" : "92146d2b-**********",
"_xsrf" : "01124268-4638-***************",
"__utmz" : "51854390.15038440***********",
"__utmv" : "51854390.000**************",
"__utma" : "51854390.4***********"
}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
然后創建一個session對象,將headers和cookies賦給session
import Requests
session = Requests.session()
session.headers = headers
requests.utils.add_dict_to_cookiejar(session.cookies, cookies)
- 1
- 2
- 3
- 4
- 5
其中,值得注意的是,session.headers可以是dict,所以直接賦值沒問題,而session.cookies必須是<class ‘requests.cookies.RequestsCookieJar’>,所以要利用requests.utils.add_dict_to_cookiejar進行賦值。
好了,現在我們已經完事具備了,可以直接訪問知乎了,就是這么簡單。
url = "https://www.zhihu.com/"
response = session.get(url)
- 1
- 2
比如這個時候,我們想把訪問到的頁面給保存下來,我們就可以這么干。
with open("test.html", "wb") as f:
f.write(response.text.encode('utf-8'))
- 1
- 2
登陸進去了之后,就是想怎么來,就怎么來了~
這里還要補充一點就是,我們如果覺得把cookies寫在源代碼中不太雅觀的話,可以將其保存到本地文件當中
import json
def save_cookies(cookies):
cookies_file = 'export.json'
with open(cookies_file, 'w') as f:
json.dump(cookies, f)
- 1
- 2
- 3
- 4
- 5
- 6
保存成Json格式之后,可以在cookies過期之后,直接在文件當中修改cookies,要讀取cookies也很方便
def load_cookies():
cookie_json = {}
try:
with open('export.json', 'r') as cookies_file:
cookie_json = json.load(cookies_file)
except:
print ("Json load failed")
finally:
return cookie_json
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
值得注意的是,這個時候出來的cookies也是dict類型的,別忘了轉換成cookiejar。
完整代碼
我們可以把上面的代碼整理一下,寫成下面這樣
文件1:用來存儲cookies
import json
def save_cookies(cookies):
cookies_file = 'export.json'
with open(cookies_file, 'w') as f:
json.dump(cookies, f)
def main():
cookies = {
"cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********",
"r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********",
"z_c0" : "Mi4xWVduN0FRQUFB**********",
"q_c1" : "108429c2422245a0********",
"d_c0" : "ADBCEDC-5guPTr*********",
"aliyungf_tc" : "AQAAAAaQE*************",
"_zap" : "92146d2b-**********",
"_xsrf" : "01124268-4638-***************",
"__utmz" : "51854390.15038440***********",
"__utmv" : "51854390.000**************",
"__utma" : "51854390.4***********"
}
save_cookies(cookies)
if __name__ == '__main__':
main()
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
文件2:用來模擬登陸
import requests
def load_cookies():
cookie_json = {}
try:
with open('export.json', 'r') as cookies_file:
cookie_json = json.load(cookies_file)
except:
print ("Json load failed")
finally:
return cookie_json
def main():
agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
headers = {
"HOST": "www.zhihu.com",
"Referer": "http://www.zhihu.com",
"User-Agent": agent
}
session = requests.session()
session.headers = headers
requests.utils.add_dict_to_cookiejar(session.cookies, load_cookies())
url = "https://www.zhihu.com/"
response = session.get(url)
with open("test.html", "wb") as f:
f.write(response.text.encode('utf-8'))
print ("Done")
if __name__ == '__main__':
main()
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
注意本文創作時間,如果閱讀時已經過了很久,代碼可能不起效。
如有不足,還請指正~