散列算法－MD5

本文轉載自查看原文 2017-10-23 18:14 1212 算法

信息摘要技術把明文內容按某種規則生成一段哈西值，即使明文消息只改動了一點點，生成的結果也會完全不同。

MD5(Message-digest algorithm 5)就是信息摘要的一種實現，它可以從任意長度的明文字符串生成128位的哈希值。

摘要哈希生成的正確姿勢是什么樣呢？分三步：

1.收集相關業務參數。

2.按照規則，把參數名和參數值拼接成一個字符串，同時把給定的密鑰也拼接起來。之所以需要密鑰，是因為攻擊者也可能獲知拼接規則。

3.利用MD5算法，從原文生成哈希值。MD5生成的哈希值是128位的二進制數，也就是32位的十六進制數。

第三方支付平台如何驗證請求的簽名？同樣分三步：

1.發送方和請求方約定相同的字符串拼接規則，約定相同的密鑰。

2.第三方平台接到支付請求，按規則拼接業務參數和密鑰，利用MD5算法生成Sign。

3.用第三方平台自己生成的Sign和請求發送過來的Sign做對比，如果兩個Sign值一模一樣，則簽名無誤，如果兩個Sign值不同，則信息做了篡改。這個過程叫做驗簽。

MD5算法底層原理：

MD5算法的過程分為四步：處理原文，設置初始值，循環加工，拼接結果。

第一步:處理原文

首先，我們計算出原文長度(bit)對512求余的結果，如果不等於448，就需要填充原文使得原文對512求余的結果等於448。填充的方法是第一位填充1，其余位填充0。填充完后，信息的長度就是512*N+448。之后，用剩余的位置（512-448=64位）記錄原文的真正長度，把長度的二進制值補在最后。這樣處理后的信息長度就是512*(N+1)。

第二步:設置初始值

MD5的哈希結果長度為128位，按每32位分成一組共4組。這4組結果是由4個初始值A、B、C、D經過不斷演變得到。

MD5的官方實現中，A、B、C、D的初始值如下（16進制）：

A=0x01234567

B=0x89ABCDEF

C=0xFEDCBA98

D=0x76543210

第三步:循環加工

這一步是最復雜的一步，我們看看下面這張圖，此圖代表了單次A,B,C,D值演變的流程。

圖中，A，B，C，D就是哈希值的四個分組。每一次循環都會讓舊的ABCD產生新的ABCD。一共進行多少次循環呢？由處理后的原文長度決定。

假設處理后的原文長度是M

主循環次數 = M / 512

每個主循環中包含 512 / 32 * 4 = 64 次子循環。

上面這張圖所表達的就是單次子循環的流程。

1.綠色F

圖中的綠色F，代表非線性函數。官方MD5所用到的函數有四種：

F(X, Y, Z) =(X&Y) | ((~X) & Z)

G(X, Y, Z) =(X&Z) | (Y & (~Z))

H(X, Y, Z) =X^Y^Z

I(X, Y, Z)=Y^(X|(~Z))

在主循環下面64次子循環中，F、G、H、I 交替使用，第一個16次使用F，第二個16次使用G，第三個16次使用H，第四個16次使用I。

2.紅色“田”字

很簡單，紅色的田字代表相加的意思。

3.Mi

Mi是第一步處理后的原文。在第一步中，處理后原文的長度是512的整數倍。把原文的每512位再分成16等份，命名為M0~M15，每一等份長度32。在64次子循環中，每16次循環，都會交替用到M1~M16之一。

4.Ki

一個常量，在64次子循環中，每一次用到的常量都是不同的。

5.黃色的<<<S

左移S位，S的值也是常量。

“流水線”的最后，讓計算的結果和B相加，取代原先的B。新ABCD的產生可以歸納為：

新A = 原d

新B = b+((a+F(b,c,d)+Mj+Ki)<<<s)

新C = 原b

新D = 原c

總結一下主循環中的64次子循環，可以歸納為下面的四部分：

第一輪：

FF(a,b,c,d,M0,7,0xd76aa478） s[0]=7, K[0] = 0xd76aa478

　　FF(a,b,c,d,M1,12,0xe8c7b756） s[1]=12, K[1] = 0xe8c7b756

　　FF(a,b,c,d,M2,17,0x242070db)

　　FF(a,b,c,d,M3,22,0xc1bdceee)

　　FF(a,b,c,d,M4,7,0xf57c0faf)

　　FF(a,b,c,d,M5,12,0x4787c62a)

　　FF(a,b,c,d,M6,17,0xa8304613）

　　FF(a,b,c,d,M7,22,0xfd469501）

　　FF(a,b,c,d,M8,7,0x698098d8）

　　FF(a,b,c,d,M9,12,0x8b44f7af)

　　FF(a,b,c,d,M10,17,0xffff5bb1）

　　FF(a,b,c,d,M11,22,0x895cd7be)

　　FF(a,b,c,d,M12,7,0x6b901122）

　　FF(a,b,c,d,M13,12,0xfd987193）

　　FF(a,b,c,d,M14,17, 0xa679438e)

　　FF(a,b,c,d,M15,22,0x49b40821）

　　第二輪：

　　GG(a,b,c,d,M1,5,0xf61e2562）

　　GG(a,b,c,d,M6,9,0xc040b340）

　　GG(a,b,c,d,M11,14,0x265e5a51）

　　GG(a,b,c,d,M0,20,0xe9b6c7aa)

　　GG(a,b,c,d,M5,5,0xd62f105d)

　　GG(a,b,c,d,M10,9,0x02441453）

　　GG(a,b,c,d,M15,14,0xd8a1e681）

　　GG(a,b,c,d,M4,20,0xe7d3fbc8）

　　GG(a,b,c,d,M9,5,0x21e1cde6）

　　GG(a,b,c,d,M14,9,0xc33707d6）

　　GG(a,b,c,d,M3,14,0xf4d50d87）

　　GG(a,b,c,d,M8,20,0x455a14ed)

　　GG(a,b,c,d,M13,5,0xa9e3e905）

　　GG(a,b,c,d,M2,9,0xfcefa3f8）

　　GG(a,b,c,d,M7,14,0x676f02d9）

　　GG(a,b,c,d,M12,20,0x8d2a4c8a)

　　第三輪：

　　HH(a,b,c,d,M5,4,0xfffa3942）

　　HH(a,b,c,d,M8,11,0x8771f681）

　　HH(a,b,c,d,M11,16,0x6d9d6122）

　　HH(a,b,c,d,M14,23,0xfde5380c)

　　HH(a,b,c,d,M1,4,0xa4beea44）

　　HH(a,b,c,d,M4,11,0x4bdecfa9）

　　HH(a,b,c,d,M7,16,0xf6bb4b60）

　　HH(a,b,c,d,M10,23,0xbebfbc70）

　　HH(a,b,c,d,M13,4,0x289b7ec6）

　　HH(a,b,c,d,M0,11,0xeaa127fa)

　　HH(a,b,c,d,M3,16,0xd4ef3085）

　　HH(a,b,c,d,M6,23,0x04881d05）

　　HH(a,b,c,d,M9,4,0xd9d4d039）

　　HH(a,b,c,d,M12,11,0xe6db99e5）

　　HH(a,b,c,d,M15,16,0x1fa27cf8）

　　HH(a,b,c,d,M2,23,0xc4ac5665）

　　第四輪：

　　Ⅱ（a,b,c,d,M0,6,0xf4292244）

　　Ⅱ（a,b,c,d,M7,10,0x432aff97）

　　Ⅱ（a,b,c,d,M14,15,0xab9423a7）

　　Ⅱ（a,b,c,d,M5,21,0xfc93a039）

　　Ⅱ（a,b,c,d,M12,6,0x655b59c3）

　　Ⅱ（a,b,c,d,M3,10,0x8f0ccc92）

　　Ⅱ（a,b,c,d,M10,15,0xffeff47d)

　　Ⅱ（a,b,c,d,M1,21,0x85845dd1）

　　Ⅱ（a,b,c,d,M8,6,0x6fa87e4f)

　　Ⅱ（a,b,c,d,M15,10,0xfe2ce6e0)

　　Ⅱ（a,b,c,d,M6,15,0xa3014314）

　　Ⅱ（a,b,c,d,M13,21,0x4e0811a1）

　　Ⅱ（a,b,c,d,M4,6,0xf7537e82）

　　Ⅱ（a,b,c,d,M11,10,0xbd3af235）

　　Ⅱ（a,b,c,d,M2,15,0x2ad7d2bb)

　　Ⅱ（a,b,c,d,M9,21,0xeb86d391）

第四步:拼接結果

這一步就很簡單了，把循環加工最終產生的A，B，C，D四個值拼接在一起，轉換成字符串即可。

破解 MD5 算法

破解並不是把摘要恢復成明文，摘要固定只有128bit而原文數量是無窮的。

MD5破解實際上屬於碰撞，只要能找到能生成此摘要的其中一個原文即可。

設MD5的哈希函數是H（X），那么：

H(A) = M

H(B) = M

任意一個B即為破解結果。

B有可能等於A，也可能不等於A。

暴力枚舉法：

枚舉出所有原文，並計算哈希值，看看哪個哈希值和給定的信息摘要一致。

時間復雜度極高，可以取巧，優先嘗試生日或者其他有意義的單詞。

字典法：

字典法用空間換時間。存儲盡可能多的原文和對應的哈希值。每次用給定的信息摘要查找字典，即可快速找到碰撞的結果。

彩虹表法：

時間和空間的取舍，存儲空間是全量字典的K分之一，代價是破解一個摘要的運算次數提高了K倍。

H（X）：生成信息摘要的哈希函數，比如MD5，比如SHA256。

R（X）：從信息摘要轉換成另一個字符串的衰減函數（Reduce）。其中R（X）的定義域是H（X）的值域，R（X）的值域是H（X）的定義域。但要注意的是，R（X）並非H（X）的反函數。

通過交替運算H和R若干次，可以形成一個原文和哈希值的鏈條。假設原文是aaaaaa，哈希值長度32bit，那么哈希鏈表就是下面的樣子：

這個鏈條有多長呢？假設H（X）和R（X）的交替重復K次，那么鏈條長度就是2K+1。同時，我們只需把鏈表的首段和末端存入哈希表中：

給定信息摘要：920ECF10

如何得到原文呢？只需進行R（X）運算：

R（920ECF10） = kiebgt

查詢哈希表可以找到末端kiebgt對應的首端是aaaaaa，因此摘要920ECF10的原文“極有可能”在aaaaaa到kiebgt的這個鏈條當中。

接下來從aaaaaa開始，重新交替運算R（X）與H（X），看一看摘要值920ECF10是否是其中一次H（X）的結果。從鏈條看來，答案是肯定的，因此920ECF10的原文就是920ECF10的前置節點sgfnyd。

需要補充的是，如果給定的摘要值經過一次R（X）運算，結果在哈希表中找不到，可以繼續交替H（X）R（X）直到第K次為止。

要盡量把R（X）設計成結果均勻發布的函數，但是再完美的函數也難免會有碰撞的情況。

給定信息摘要：FB107E70

經過多次R（X），H（X）運算，得到結果kiebgt

通過哈希表查找末端kiebgt，可以找出首端aaaaaa

但是，FB107E70並不在aaaaaa到kiebgt的哈希鏈條當中，這就是R（X）的碰撞造成的。

這個問題看似沒什么影響，既然找不到就重新生成一組首尾映射即可。但是想象一下，當K值較大的時候，哈希鏈很長，一旦兩條不同的哈希鏈在某個節點出現碰撞，后面所有的明文和哈希值全都變成了一摸一樣的值。這樣造成的后果就是冗余存儲。原本兩條哈希鏈可以存儲 2K個映射，由於重復，真正存儲的映射數量不足2K。

彩虹表對哈希鏈進行了改進，把原先的R（X）函數改進成從R1（X）到Rk（X）一共k個衰減函數。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 單向散列算法--MD5算法逆向分析 Java哈希散列算法簡介 - MD5 & SHA-512 Java 對字符串數據進行MD5/SHA1哈希散列運算 MD5算法解析 MD5算法講解逆向算法之MD5算法 MD5算法+鹽Salt 散列算法和哈希表結構算法：MD5算法原理說明加密算法極先鋒之MD5算法