在開發過程中,避免不了要涉及到數據加密,比如用戶賬號密碼的加密,用戶敏感數據的加密,涉及到的加密算法種類繁多,作為拿來主義的開發者時間精力有限,能夠清楚其中主流的加密算法和用途,就已經足夠了。
主要的數據加密算法主要有:md5、sha、aes、des、rsa、base64等等。
先來看看我們的老熟人:md5算法
MD5算法是哈希算法的一種,雖然不能算真正意義上的加密算法,但幾乎在任何一個系統中,都少不了他的身影。MD5算法全稱叫 Message Digest Algorithm 5(信息摘要算法5),是數字摘要算法的一種實現,摘要長度為128位。由於它哈希算法的典型特征,注定了他無法從密文准確還原出明文,因此MD5算法不能算真正的加密算法,但在很多地方也籠統地叫它是加密算法。由於其具備了足夠的復雜性和不可逆性,因此主要用於確保信息傳輸完整性和一致性。他還有早期的“不太爭氣”的幾代MD2、MD3、MD4(早期的幾代就是由於復雜度不夠被破解了)。正是由於MD5算法有如此特性,在業界應用非常廣泛,主流的編程語言都自帶有MD5的實現。
最常見的,很多系統中的用戶密碼都采用了MD5加密算法進行加密。但是樹大必然招風,就像windows系統應用廣泛了,安全性就收到了挑戰,MD5也不例外。度娘一下就會發現,有諸多網站提供MD5破解,有的甚至需要收費提供破解服務。
不過不用擔心,目前能破解MD5並還原出原始數據的成功率很低(當然像123456這種弱智的原文,就不要提了,其他的破解可以自行度娘試試)。這就需要提到現行MD5算法的主要破解思路,其實核心只有一個,那就是暴力碰撞(其他還有兩種 字典法、彩虹表法都是暴力碰撞法的改良,原理一樣),說白了就是用已知的字符進行各種變態組合,生成眾多的密文與原文的對應庫,然后反向根據密文,找到對應的明文。
比如,你的明文數據是 abcd1234(當然實際不應該這么簡單,這里只是舉例),加密出來的密文是e19d5cd5af0378da05f63f891c7467af,那么不安好心的人就會用密文e19d5cd5af0378da05f63f891c7467af去提供這種破解的工具或者服務那里,查詢這個密文有沒有對應明文,如果有,就代表破解成功了,然后他就拿這個“破解”得到的明文去登錄你的賬號,結果可想而知。
成功進入了你的領地,但這個成功,是不完美的。因為md5的不可逆性,大多數賬號登錄過程,只能拿用戶輸入的原文加密成MD5密文后去跟數據庫里的密文比較,相同則認定密碼正確。
但這也有漏網之魚,因為即使破解出來的結果不是上面說到的abcd1234而是xxxxx,也有可能用xxxx成功登錄系統。
因為MD5雖然不可逆,但不是唯一性。 這里所謂的破解,並非把摘要還原成原文。為什么呢?因為固定128位的摘要(也就是加密后的密文)是有窮的,而原文數量是無窮的,每一個摘要都可以由若干個原文通過Hash得到。換句人話說,就是不同的原文可能加密后得到相同的密文。那么拿密文猜測原文就會得到多個結果,單純比較密文,就會被認為是一致的。而反過來,也是同理。拿到不一定對的還原出來的明文去做其他操作,也不一定能成功。
總結一下,MD5加密算法之所以破解成功的概率很低,主要由於以下幾點:
1)依賴暴力碰撞的破解思路,意味着需要盡可能多的組合所有字符,形成海量的配對庫,用於通過密文反向查詢明文,但字符種類千千萬萬,所有都進行組合,可能性都超過地球的細胞總數了,估計現在所有硬盤加在一起的空間都存不下,成本之高,可想而知。
2)目前能破解的都屬於已經被組合猜測過的,一般也都是長度較短的或者比較有規律的組合。只要長度越長越沒有規律,不同類型字符組合越多,破解概率越低,幾乎不會成功。
3)就算密文對了,原始明文也不一定對,當然這是最后一道防線,聽天由命了。
另外,MD5的用途,目前主流的無非兩種,一種是用於類似用戶密碼等不需要還原的敏感數據的加密,一種是用於確保信息傳輸完整性和一致性。其實,第二種用途才是他誕生的初衷。
這里簡單提一下第二種用途。很多支付接口、數據交互接口,都采用基於MD5來確保數據的完整性和一致性,也就是在網絡傳輸過程中沒有被篡改。如何保證數據不被篡改,僅僅依靠MD5做不到,還需要聯手其他加密算法,具體請后續再談。
本文由弈碼當先 root1024 獨家發布!