Python模擬微博登陸,親測有效


python爬蟲

今天想做一個微博爬個人頁面的工具,滿足一些不可告人的秘密。那么首先就要做那件必做之事!模擬登陸……

代碼是參考了:https://www.douban.com/note/201767245/

我對代碼進行了優化,重構成了Python 3.6 版本,並且加入了大量注釋方便大家學習。

PC 登錄新浪微博時, 在客戶端用js預先對用戶名、密碼都進行了加密, 而且在POST之前會GET 一組參數,這也將作為POST_DATA 的一部分。 這樣, 就不能用通常的那種簡單方法來模擬POST 登錄( 比如 人人網 )。

1.

在提交POST請求之前, 需要GET 獲取兩個參數。
地址是:

http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)

得到的數據中有 servertime 和 nonce 的值, 是隨機的,其他值貌似沒什么用。

def get_servertime():
   url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939'
   # 返回出來的是一個Response對象,無法直接獲取,text后,可以通過正則匹配到
   # 大概長這樣子的:sinaSSOController.preloginCallBack({"retcode":0,"servertime":1545606770, ...})
   data = requests.request('GET', url).text
   p = re.compile('\((.*)\)')
   try:
       json_data = p.search(data).group(1)
       data = json.loads(json_data)
       servertime = str(data['servertime'])
       nonce = data['nonce']
       return servertime, nonce
   except:
       print('獲取 severtime 失敗!')
       return None

2.

通過httpfox 觀察POST 的數據, 參數較復雜,其中 “su" 是加密后的username, sp 是加密后的password。servertime 和 nonce 是上一步得到的。其他參數是不變的。

username 經過了BASE64 計算:

username = base64.encodestring( urllib.quote(username) )[:-1]

password 經過了三次SHA1 加密, 且其中加入了 servertime 和 nonce 的值來干擾。
即: 兩次SHA1加密后, 將結果加上 servertime 和 nonce 的值, 再SHA1 算一次。

def get_pwd(pwd, servertime, nonce):
   # 第一次計算,注意Python3 的加密需要encode,使用bytes
   pwd1 = hashlib.sha1(pwd.encode()).hexdigest()
   # 使用pwd1的結果在計算第二次
   pwd2 = hashlib.sha1(pwd1.encode()).hexdigest()
   # 使用第二次的結果再加上之前計算好的servertime和nonce值,hash一次
   pwd3_ = pwd2 + servertime + nonce
   pwd3 = hashlib.sha1(pwd3_.encode()).hexdigest()
   return pwd3


def get_user(username):
   # 將@符號轉換成url中能夠識別的字符
   _username = urllib.request.quote(username)
   # Python3中的base64計算也是要字節
   # base64出來后,最后有一個換行符,所以用了切片去了最后一個字符
   username = base64.encodebytes(_username.encode())[:-1]
   return username

3.

將參數組織好, POST請求。 這之后還沒有登錄成功。

POST后得到的內容中包含一句:

location.replace("http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&retcode=101&reason=%B5%C7%C2%BC%C3%FB%BB%F2%C3%DC%C2%EB%B4%ED%CE%F3")

這是登錄失敗時的結果, 登錄成功后結果與之類似, 不過retcode 的值是0 。

接下來再請求這個URL,這樣就成功登錄到微博了。
記得要提前build 緩存。

python自動登陸

關注公眾號「Python專欄」,后台回復「模擬微博登陸」,獲取全套微博自動登陸代碼。

Python專欄二維碼


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM