信息摘要技術把明文內容按某種規則生成一段哈西值,即使明文消息只改動了一點點,生成的結果也會完全不同。
MD5(Message-digest algorithm 5)就是信息摘要的一種實現,它可以從任意長度的明文字符串生成128位的哈希值。
摘要哈希生成的正確姿勢是什么樣呢?分三步:
1.收集相關業務參數。
2.按照規則,把參數名和參數值拼接成一個字符串,同時把給定的密鑰也拼接起來。之所以需要密鑰,是因為攻擊者也可能獲知拼接規則。
3.利用MD5算法,從原文生成哈希值。MD5生成的哈希值是128位的二進制數,也就是32位的十六進制數。
第三方支付平台如何驗證請求的簽名?同樣分三步:
1.發送方和請求方約定相同的字符串拼接規則,約定相同的密鑰。
2.第三方平台接到支付請求,按規則拼接業務參數和密鑰,利用MD5算法生成Sign。
3.用第三方平台自己生成的Sign和請求發送過來的Sign做對比,如果兩個Sign值一模一樣,則簽名無誤,如果兩個Sign值不同,則信息做了篡改。這個過程叫做驗簽。
MD5算法底層原理:
MD5算法的過程分為四步:處理原文,設置初始值,循環加工,拼接結果。
第一步:處理原文
首先,我們計算出原文長度(bit)對512求余的結果,如果不等於448,就需要填充原文使得原文對512求余的結果等於448。填充的方法是第一位填充1,其余位填充0。填充完后,信息的長度就是512*N+448。之后,用剩余的位置(512-448=64位)記錄原文的真正長度,把長度的二進制值補在最后。這樣處理后的信息長度就是512*(N+1)。
第二步:設置初始值
MD5的哈希結果長度為128位,按每32位分成一組共4組。這4組結果是由4個初始值A、B、C、D經過不斷演變得到。
MD5的官方實現中,A、B、C、D的初始值如下(16進制):
A=0x01234567
B=0x89ABCDEF
C=0xFEDCBA98
D=0x76543210
第三步:循環加工
這一步是最復雜的一步,我們看看下面這張圖,此圖代表了單次A,B,C,D值演變的流程。
圖中,A,B,C,D就是哈希值的四個分組。每一次循環都會讓舊的ABCD產生新的ABCD。一共進行多少次循環呢?由處理后的原文長度決定。
假設處理后的原文長度是M
主循環次數 = M / 512
每個主循環中包含 512 / 32 * 4 = 64 次子循環。
上面這張圖所表達的就是單次子循環的流程。
1.綠色F
圖中的綠色F,代表非線性函數。官方MD5所用到的函數有四種:
F(X, Y, Z) =(X&Y) | ((~X) & Z)
G(X, Y, Z) =(X&Z) | (Y & (~Z))
H(X, Y, Z) =X^Y^Z
I(X, Y, Z)=Y^(X|(~Z))
在主循環下面64次子循環中,F、G、H、I 交替使用,第一個16次使用F,第二個16次使用G,第三個16次使用H,第四個16次使用I。
2.紅色“田”字
很簡單,紅色的田字代表相加的意思。
3.Mi
Mi是第一步處理后的原文。在第一步中,處理后原文的長度是512的整數倍。把原文的每512位再分成16等份,命名為M0~M15,每一等份長度32。在64次子循環中,每16次循環,都會交替用到M1~M16之一。
4.Ki
一個常量,在64次子循環中,每一次用到的常量都是不同的。
5.黃色的<<<S
左移S位,S的值也是常量。
“流水線”的最后,讓計算的結果和B相加,取代原先的B。新ABCD的產生可以歸納為:
新A = 原d
新B = b+((a+F(b,c,d)+Mj+Ki)<<<s)
新C = 原b
新D = 原c
總結一下主循環中的64次子循環,可以歸納為下面的四部分:
第一輪:
FF(a,b,c,d,M0,7,0xd76aa478) s[0]=7, K[0] = 0xd76aa478
FF(a,b,c,d,M1,12,0xe8c7b756) s[1]=12, K[1] = 0xe8c7b756
FF(a,b,c,d,M2,17,0x242070db)
FF(a,b,c,d,M3,22,0xc1bdceee)
FF(a,b,c,d,M4,7,0xf57c0faf)
FF(a,b,c,d,M5,12,0x4787c62a)
FF(a,b,c,d,M6,17,0xa8304613)
FF(a,b,c,d,M7,22,0xfd469501)
FF(a,b,c,d,M8,7,0x698098d8)
FF(a,b,c,d,M9,12,0x8b44f7af)
FF(a,b,c,d,M10,17,0xffff5bb1)
FF(a,b,c,d,M11,22,0x895cd7be)
FF(a,b,c,d,M12,7,0x6b901122)
FF(a,b,c,d,M13,12,0xfd987193)
FF(a,b,c,d,M14,17, 0xa679438e)
FF(a,b,c,d,M15,22,0x49b40821)
第二輪:
GG(a,b,c,d,M1,5,0xf61e2562)
GG(a,b,c,d,M6,9,0xc040b340)
GG(a,b,c,d,M11,14,0x265e5a51)
GG(a,b,c,d,M0,20,0xe9b6c7aa)
GG(a,b,c,d,M5,5,0xd62f105d)
GG(a,b,c,d,M10,9,0x02441453)
GG(a,b,c,d,M15,14,0xd8a1e681)
GG(a,b,c,d,M4,20,0xe7d3fbc8)
GG(a,b,c,d,M9,5,0x21e1cde6)
GG(a,b,c,d,M14,9,0xc33707d6)
GG(a,b,c,d,M3,14,0xf4d50d87)
GG(a,b,c,d,M8,20,0x455a14ed)
GG(a,b,c,d,M13,5,0xa9e3e905)
GG(a,b,c,d,M2,9,0xfcefa3f8)
GG(a,b,c,d,M7,14,0x676f02d9)
GG(a,b,c,d,M12,20,0x8d2a4c8a)
第三輪:
HH(a,b,c,d,M5,4,0xfffa3942)
HH(a,b,c,d,M8,11,0x8771f681)
HH(a,b,c,d,M11,16,0x6d9d6122)
HH(a,b,c,d,M14,23,0xfde5380c)
HH(a,b,c,d,M1,4,0xa4beea44)
HH(a,b,c,d,M4,11,0x4bdecfa9)
HH(a,b,c,d,M7,16,0xf6bb4b60)
HH(a,b,c,d,M10,23,0xbebfbc70)
HH(a,b,c,d,M13,4,0x289b7ec6)
HH(a,b,c,d,M0,11,0xeaa127fa)
HH(a,b,c,d,M3,16,0xd4ef3085)
HH(a,b,c,d,M6,23,0x04881d05)
HH(a,b,c,d,M9,4,0xd9d4d039)
HH(a,b,c,d,M12,11,0xe6db99e5)
HH(a,b,c,d,M15,16,0x1fa27cf8)
HH(a,b,c,d,M2,23,0xc4ac5665)
第四輪:
Ⅱ(a,b,c,d,M0,6,0xf4292244)
Ⅱ(a,b,c,d,M7,10,0x432aff97)
Ⅱ(a,b,c,d,M14,15,0xab9423a7)
Ⅱ(a,b,c,d,M5,21,0xfc93a039)
Ⅱ(a,b,c,d,M12,6,0x655b59c3)
Ⅱ(a,b,c,d,M3,10,0x8f0ccc92)
Ⅱ(a,b,c,d,M10,15,0xffeff47d)
Ⅱ(a,b,c,d,M1,21,0x85845dd1)
Ⅱ(a,b,c,d,M8,6,0x6fa87e4f)
Ⅱ(a,b,c,d,M15,10,0xfe2ce6e0)
Ⅱ(a,b,c,d,M6,15,0xa3014314)
Ⅱ(a,b,c,d,M13,21,0x4e0811a1)
Ⅱ(a,b,c,d,M4,6,0xf7537e82)
Ⅱ(a,b,c,d,M11,10,0xbd3af235)
Ⅱ(a,b,c,d,M2,15,0x2ad7d2bb)
Ⅱ(a,b,c,d,M9,21,0xeb86d391)
第四步:拼接結果
這一步就很簡單了,把循環加工最終產生的A,B,C,D四個值拼接在一起,轉換成字符串即可。
破解 MD5 算法
破解並不是把摘要恢復成明文,摘要固定只有128bit而原文數量是無窮的。
MD5破解實際上屬於碰撞,只要能找到能生成此摘要的其中一個原文即可。
設MD5的哈希函數是H(X),那么:
H(A) = M
H(B) = M
任意一個B即為破解結果。
B有可能等於A,也可能不等於A。
暴力枚舉法:
枚舉出所有原文,並計算哈希值,看看哪個哈希值和給定的信息摘要一致。
時間復雜度極高,可以取巧,優先嘗試生日或者其他有意義的單詞。
字典法:
字典法用空間換時間。存儲盡可能多的原文和對應的哈希值。每次用給定的信息摘要查找字典,即可快速找到碰撞的結果。
彩虹表法:
時間和空間的取舍,存儲空間是全量字典的K分之一,代價是破解一個摘要的運算次數提高了K倍。
H(X):生成信息摘要的哈希函數,比如MD5,比如SHA256。
R(X):從信息摘要轉換成另一個字符串的衰減函數(Reduce)。其中R(X)的定義域是H(X)的值域,R(X)的值域是H(X)的定義域。但要注意的是,R(X)並非H(X)的反函數。
通過交替運算H和R若干次,可以形成一個原文和哈希值的鏈條。假設原文是aaaaaa,哈希值長度32bit,那么哈希鏈表就是下面的樣子:
這個鏈條有多長呢?假設H(X)和R(X)的交替重復K次,那么鏈條長度就是2K+1。同時,我們只需把鏈表的首段和末端存入哈希表中:
給定信息摘要:920ECF10
如何得到原文呢?只需進行R(X)運算:
R(920ECF10) = kiebgt
查詢哈希表可以找到末端kiebgt對應的首端是aaaaaa,因此摘要920ECF10的原文“極有可能”在aaaaaa到kiebgt的這個鏈條當中。
接下來從aaaaaa開始,重新交替運算R(X)與H(X),看一看摘要值920ECF10是否是其中一次H(X)的結果。從鏈條看來,答案是肯定的,因此920ECF10的原文就是920ECF10的前置節點sgfnyd。
需要補充的是,如果給定的摘要值經過一次R(X)運算,結果在哈希表中找不到,可以繼續交替H(X)R(X)直到第K次為止。
要盡量把R(X)設計成結果均勻發布的函數,但是再完美的函數也難免會有碰撞的情況。
給定信息摘要:FB107E70
經過多次R(X),H(X)運算,得到結果kiebgt
通過哈希表查找末端kiebgt,可以找出首端aaaaaa
但是,FB107E70並不在aaaaaa到kiebgt的哈希鏈條當中,這就是R(X)的碰撞造成的。
這個問題看似沒什么影響,既然找不到就重新生成一組首尾映射即可。但是想象一下,當K值較大的時候,哈希鏈很長,一旦兩條不同的哈希鏈在某個節點出現碰撞,后面所有的明文和哈希值全都變成了一摸一樣的值。這樣造成的后果就是冗余存儲。原本兩條哈希鏈可以存儲 2K個映射,由於重復,真正存儲的映射數量不足2K。
彩虹表對哈希鏈進行了改進,把原先的R(X)函數改進成從R1(X)到Rk(X)一共k個衰減函數。