python hashlib 詳解


1.概述

摘要算法簡介
Python的hashlib提供了常見的摘要算法,如MD5,SHA1等等。

什么是摘要算法呢?摘要算法又稱哈希算法、散列算法。它通過一個函數,把任意長度的數據轉換為一個長度固定的數據串(通常用16進制的字符串表示)。

舉個例子,你寫了一篇文章,內容是一個字符串'how to use python hashlib - by Michael',並附上這篇文章的摘要是'2d73d4f15c0db7f5ecb321b6a65e5d6d'。如果有人篡改了你的文章,並發表為'how to use python hashlib - by Bob',你可以一下子指出Bob篡改了你的文章,因為根據'how to use python hashlib - by Bob'計算出的摘要不同於原始文章的摘要。

可見,摘要算法就是通過摘要函數f()對任意長度的數據data計算出固定長度的摘要digest,目的是為了發現原始數據是否被人篡改過。

摘要算法之所以能指出數據是否被篡改過,就是因為摘要函數是一個單向函數,計算f(data)很容易,但通過digest反推data卻非常困難。而且,對原始數據做一個bit的修改,都會導致計算出的摘要完全不同。

2.舉例

import hashlib
md5 = hashlib.md5()
md5.updata("this md5".encode("utf-8")) 
print(md5.hexdigest())
# 注意:python3 必須轉碼為utf-8
# 結果為:1fb854b337664396bacd634a2ad0ec18


#當數據量過過大時,可以分塊摘要,例如:
import hashlib
md5 = hashlib.md5()
md5.updata("this".encode("utf-8"))
md5.updata("md5".encode("utf-8"))
print(md5.hexdigest())
# 注意:分塊是空格也要保持一致
# 結果為:1fb854b337664396bacd634a2ad0ec18
# MD5是最常見的摘要算法,速度很快,生成結果是固定的128 bit字節,通常用一個32位的16進制字符串表示。

2.1 另一種摘要方式 SHA1

SHA1用法與md5類似
import hashlib

sha1 = hashlib.sha1()
sha1.update("this sha1 ".encode("utf-8"))
print(sha1.hexdigest())
# 結果 :db56cab5dcf85f12cb558e53eec3a0b070a6e953 # SHA1的結果是160 bit字節,通常用一個40位的16進制字符串表示。 # 比SHA1更安全的算法是SHA256和SHA512,不過越安全的算法越慢,而且摘要長度更長。 # 有沒有可能兩個不同的數據通過某個摘要算法得到了相同的摘要?完全有可能,因為任何摘要算法都是把無限多的數據集合映射到一個有限的集合中。這種情況稱為碰撞,比如Bob試圖根據你的摘要反推出一篇文章
'how to learn hashlib in python - by Bob',並且這篇文章的摘要恰好和你的文章完全一致,這種情況也並非不可能出現,但是非常非常困難。

3.應用

任何允許用戶登錄的網站都會存儲用戶登錄的用戶名和口令。
如何存儲用戶名和口令呢?方法是存到數據庫表中:
name    | password
--------+----------
michael | 123456
bob     | abc999
alice   | alice2008

如果以明文保存用戶口令,如果數據庫泄露,所有用戶的口令就落入黑客的手里。此外,網站運維人員是可以訪問數據庫的,也就是能獲取到所有用戶的口令。

正確的保存口令的方式是不存儲用戶的明文口令,而是存儲用戶口令的摘要,
比如MD5:
username | password
---------+---------------------------------
michael  | e10adc3949ba59abbe56e057f20f883e
bob      | 878ef96e86145580c38c87f0410ad153
alice    | 99b1c2188db85afee403b1536010c2c9

當用戶登錄時,首先計算用戶輸入的明文口令的MD5,
然后和數據庫存儲的MD5對比,如果一致,說明口令輸入正確,
如果不一致,口令肯定錯誤。

4.高級應用

 1 采用MD5存儲口令是否就一定安全呢?也不一定。
 2 假設你是一個黑客,已經拿到了存儲MD5口令的數據庫,
 3 如何通過MD5反推用戶的明文口令呢?暴力破解費事費力,真正的黑客不會這么干。
 4 
 5 考慮這么個情況,很多用戶喜歡用123456,888888,password這些簡單的口令,
 6 於是,黑客可以事先計算出這些常用口令的MD5值,得到一個反推表:
 7 'e10adc3949ba59abbe56e057f20f883e': '123456'
 8 '21218cca77804d2ba1922c33e0151105': '888888'
 9 '5f4dcc3b5aa765d61d8327deb882cf99': 'password'
10 
11 
12 
13 對於用戶來講,當然不要使用過於簡單的口令。但是,我們能否在程序設計上對簡單口令加強保護呢?
14 
15 由於常用口令的MD5值很容易被計算出來,所以,要確保存儲的用戶口令不是那些已經被計算出來的常用口令的MD5,
16 這一方法通過對原始口令加一個復雜字符串來實現,俗稱“加鹽”:
17 def calc_md5(password):
18     return get_md5(password + 'the-Salt')
19 
20 經過Salt處理的MD5口令,只要Salt不被黑客知道,即使用戶輸入簡單口令,也很難通過MD5反推明文口令。
21 
22 但是如果有兩個用戶都使用了相同的簡單口令比如123456,
23 在數據庫中,將存儲兩條相同的MD5值,
24 這說明這兩個用戶的口令是一樣的。有沒有辦法讓使用相同口令的用戶存儲不同的MD5呢?
25 
26 如果假定用戶無法修改登錄名,
27 就可以通過把登錄名作為Salt的一部分來計算MD5,從而實現相同口令的用戶也存儲不同的MD5

5.總結

 1 摘要算法在很多地方都有廣泛的應用。 2 要注意摘要算法不是加密算法,不能用於加密(因為無法通過摘要反推明文),只能用於防篡改, 3 但是它的單向計算特性決定了可以在不存儲明文口令的情況下驗證用戶口令 

 參照:https://www.liaoxuefeng.com/wiki/897692888725344/923057313018752

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM