Hash,一般翻譯做“散列”,也有直接音譯為“哈希”的,就是把任意長度的
輸入(又叫做預映射, pre-image),通過散列算法,變換成固定長度的
輸出,該輸出就是散列值。這種轉換是一種壓縮映射,也就是,散列值的空間通常遠小於輸入的空間,不同的輸入可能會散列成相同的輸出,所以不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的
消息摘要的函數。
HASH函數(計算機算法領域)
基本概念
* 對不同的關鍵字可能得到同一散列地址,即key1≠key2,而f(key1)=f(key2),這種現象稱碰撞。具有相同函數值的關鍵字對該散列函數來說稱做
同義詞。綜上所述,根據散列函數H(key)和處理沖突的方法將一組關鍵字映象到一個有限的連續的地址集(區間)上,並以關鍵字在地址集中的“象” 作為記錄在表中的存儲位置,這種表便稱為
散列表,這一映象過程稱為散列造表或
散列,所得的存儲位置稱散列地址。
* 若對於
關鍵字集合中的任一個關鍵字,經
散列函數映象到地址集合中任何一個地址的概率是相等的,則稱此類散列函數為均勻散列函數(Uniform Hash function),這就是使關鍵字經過散列函數得到一個“隨機的地址”,從而減少沖突。
性質
所有
散列函數都有如下一個基本特性:如果兩個散列值是不相同的(根據同一函數),那么這兩個散列值的原始輸入也是不相同的。這個特性是散列函數具有確定性的結果。但另一方面,散列函數的輸入和輸出不是一一對應的,如果兩個散列值相同,兩個輸入值很可能是相同的,但並不能絕對肯定二者一定相等。輸入一些數據計算出散列值,然后部分改變輸入值,一個具有強混淆特性的散列函數會產生一個完全不同的散列值。
典型的散列函數都有無限定義域,比如任意長度的字節字符串,和有限的值域,比如固定長度的比特串。在某些情況下,散列函數可以設計成具有相同大小的定義域和值域間的一一對應。一一對應的散列函數也稱為排列。可逆性可以通過使用一系列的對於輸入值的可逆“混合”運算而得到。
常用HASH函數
·直接取余法:f(x):= x mod maxM ; maxM一般是不太接近 2^t 的一個質數。
·乘法取整法:f(x):=trunc((x/maxX)*maxlongit) mod maxM,主要用於實數。
·平方取中法:f(x):=(x*x div 1000 ) mod 1000000); 平方后取中間的,每位包含信息比較多。
構造方法
(詳細構造方法可以參考
hash函數中的【哈希表的構造方法】)
1.
直接尋址法:取關鍵字或關鍵字的某個線性函數值為散列地址。即H(key)=key或H(key) = a·key + b,其中a和b為常數(這種散列函數叫做自身函數)
2. 數字分析法
3. 平方取中法
4. 折疊法
5. 隨機數法
6. 除留余數法:取關鍵字被某個不大於
散列表表長m的數p除后所得的余數為散列地址。即 H(key) = key MOD p,p<=m。不僅可以對關鍵字直接取模,也可在折疊、平方取中等運算之后取模。對p的選擇很重要,一般取素數或m,若p選的不好,容易產生同義詞。
處理沖突方法
1). di=1,2,3,…,m-1,稱線性探測再散列;
2). di=1^2,(-1)^2,2^2,(-2)^2,(3)^2,…,±(k)^2,(k<=m/2)稱二次探測再散列;
3). di=
偽隨機數序列,稱偽隨機探測再散列。
2. 再
散列法:Hi=RHi(key),i=1,2,…,k RHi均是不同的散列函數,即在同義詞產生地址沖突時計算另一個散列函數地址,直到沖突不再發生,這種方法不易產生“聚集”,但增加了計算時間。
3. 鏈地址法(拉鏈法)
4. 建立一個公共溢出區
查找性能分析
散列表的查找過程基本上和造表過程相同。一些關鍵碼可通過
散列函數轉換的地址直接找到,另一些關鍵碼在散列函數得到的地址上產生了沖突,需要按處理沖突的方法進行查找。在介紹的三種處理沖突的方法中,產生沖突后的查找仍然是給定值與關鍵碼進行比較的過程。所以,對散列表查找效率的量度,依然用
平均查找長度來衡量。
查找過程中,關鍵碼的比較次數,取決於產生沖突的多少,產生的沖突少,查找效率就高,產生的沖突多,查找效率就低。因此,影響產生沖突多少的因素,也就是影響查找效率的因素。影響產生沖突多少有以下三個因素:
1.散列函數是否均勻;
2. 處理沖突的方法;
3.
散列表的裝填因子。
散列表的裝填因子定義為:α= 填入表中的元素個數/散列表的長度
α是散列表裝滿程度的標志因子。由於表長是定值,α與“填入表中的元素個數”成正比,所以,α越大,填入表中的元素較多,產生沖突的可能性就越大;α越小,填入表中的元素較少,產生沖突的可能性就越小。
實際上,散列表的
平均查找長度是裝填因子α的函數,只是不同處理沖突的方法有不同的函數。
常用hash算法的介紹:
(1)MD4
MD4(RFC 1320)是 MIT 的
Ronald L. Rivest在 1990 年設計的,MD 是 Message Digest(
消息摘要) 的縮寫。它適用在32位
字長的處理器上用高速軟件實現——它是基於 32
位操作數的位操作來實現的。
(2)
MD5
MD5(RFC 1321)是 Rivest 於1991年對MD4的改進版本。它對輸入仍以512位分組,其輸出是4個32位字的級聯,與 MD4 相同。MD5比MD4來得復雜,並且速度較之要慢一點,但更安全,在抗分析和抗差分方面表現更好。
(3)
SHA-1及其他
SHA1是由NIST NSA設計為同DSA一起使用的,它對長度小於264的輸入,產生長度為160bit的散列值,因此抗窮舉(brute-force)性更好。SHA-1 設計時基於和MD4相同原理,並且模仿了該算法。
散列函數應用
由於
散列函數的應用的多樣性,它們經常是專為某一應用而設計的。例如,
加密散列函數假設存在一個要找到具有相同散列值的原始輸入的敵人。一個設計優秀的加密散列函數是一個“單向”操作:對於給定的散列值,沒有實用的方法可以計算出一個原始輸入,也就是說很難偽造。為加密散列為目的設計的函數,如MD5,被廣泛的用作檢驗散列函數。這樣軟件下載的時候,就會對照驗證代碼之后才下載正確的文件部分。此代碼有可能因為環境因素的變化,如機器配置或者IP地址的改變而有變動。以保證源文件的安全性。
錯誤監測和修復函數主要用於辨別數據被隨機的過程所擾亂的事例。當散列函數被用於
校驗和的時候,可以用相對較短的散列值來驗證任意長度的數據是否被更改過。
錯誤校正
使用一個
散列函數可以很直觀的檢測出數據在傳輸時發生的錯誤。在數據的發送方,對將要發送的數據應用散列函數,並將計算的結果同原始數據一同發送。在數據的接收方,同樣的散列函數被再一次應用到接收到的數據上,如果兩次散列函數計算出來的結果不一致,那么就說明數據在傳輸的過程中某些地方有錯誤了。這就叫做
冗余校驗。
對於錯誤校正,假設相似擾動的分布接近最小(a distribution of likely perturbations is assumed at least approximately)。對於一個信息串的微擾可以被分為兩類,大的(不可能的)錯誤和小的(可能的)錯誤。我們對於第二類錯誤重新定義如下,假如給定 H(x) 和 x+s,那么只要s足夠小,我們就能有效的計算出x。那樣的
散列函數被稱作錯誤校正編碼。這些錯誤校正編碼有兩個重要的分類:循環冗余校驗和
里德所羅門碼。
語音識別
對於像從一個已知列表中匹配一個MP3文件這樣的應用,一種可能的方案是使用傳統的散列函數——例如MD5,但是這種方案會對時間平移、CD讀取錯誤、不同的音頻壓縮算法或者音量調整的實現機制等情況非常敏感。使用一些類似於MD5的方法有利於迅速找到那些嚴格相同(從音頻文件的二進制數據來看)的音頻文件,但是要找到全部相同(從音頻文件的內容來看)的音頻文件就需要使用其他更高級的算法了。
那些並不緊隨IT工業潮流的人往往能反其道而行之,對於那些微小差異足夠
魯棒的
散列函數確實存在。現存的絕大多數散列算法都是不夠魯棒的,但是有少數散列算法能夠達到辨別從嘈雜房間里的揚聲器里播放出來的音樂的魯棒性。有一個實際的例子是Shazam[1]服務。用戶可以用電話機撥打一個特定的號碼,並將電話機的話筒靠近用於播放音樂的揚聲器。該項服務會分析正在播放的音樂,並將它於存儲在數據庫中的已知的散列值進行比較。用戶就能夠收到被識別的音樂的曲名(需要收取一定的費用)
信息安全
Hash算法在信息安全方面的應用主要體現在以下的3個方面:
(1)
文件校驗
MD5 Hash算法的"數字指紋"特性,使它成為目前應用最廣泛的一種文件完整性
校驗和(Checksum)算法,不少Unix系統有提供計算md5 checksum的命令。
(2)
數字簽名
Hash 算法也是現代密碼體系中的一個重要組成部分。由於
非對稱算法的運算速度較慢,所以在數字簽名協議中,
單向散列函數扮演了一個重要的角色。對 Hash 值,又稱"
數字摘要"進行數字簽名,在統計上可以認為與對文件本身進行數字簽名是等效的。而且這樣的協議還有其他的優點。
(3) 鑒權協議
如下的鑒權協議又被稱作挑戰--認證模式:在傳輸信道是可被偵聽,但不可被篡改的情況下,這是一種簡單而安全的方法。以上就是一些關於hash以及其相關的一些基本預備知識。
哈希函數
(1)余數法:先估計整個哈希表中的表項目數目大小。然后用這個估計值作為除數去除每個原始值,得到商和余數。用余數作為哈希值。因為這種方法產生沖突的可能性相當大,因此任何搜索算法都應該能夠判斷沖突是否發生並提出取代算法。
(2)折疊法:這種方法是針對原始值為數字時使用,將原始值分為若干部分,然后將各部分疊加,得到的最后四個數字(或者取其他位數的數字都可以)來作為哈希值。
(3)基數轉換法:當原始值是數字時,可以將原始值的數制基數轉為一個不同的數字。例如,可以將十進制的原始值轉為十六進制的哈希值。為了使哈希值的長度相同,可以省略高位數字。
(4)數據重排法:這種方法只是簡單的將原始值中的數據打亂排序。比如可以將第三位到第六位的數字逆序排列,然后利用重排后的數字作為哈希值。
哈希函數並不通用,比如在數據庫中用能夠獲得很好效果的哈希函數,用在密碼學或錯誤校驗方面就未必可行。在密碼學領域有幾個著名的哈希函數。這些函數包括MD2、MD4以及MD5,利用散列法將數字簽名轉換成的哈希值稱為信息摘要(message-digest),另外還有
安全散列算法(SHA),這是一種標准算法,能夠生成更大的(60bit)的信息摘要,有點兒類似於MD4算法。[1]
文件的hash值
大家都知道emule是基於P2P (Peer-to-peer的縮寫,指的是點對點的意思的軟件), 它采用了"多源文件傳輸協議”(
MFTP,the Multisource FileTransfer Protocol)。在協議中,定義了一系列傳輸、壓縮和打包還有積分的標准,emule 對於每個文件都有md5-hash的算法設置,這使得該文件獨一無二,並且在整個網絡上都可以追蹤得到。
MD5-Hash-文件的數字文摘通過Hash函數計算得到。不管文件長度如何,它的Hash函數計算結果是一個固定長度的數字。與
加密算法不同,這一個Hash算法是一個不可逆的
單向函數。采用安全性高的Hash算法,如MD5、SHA時,兩個不同的文件幾乎不可能得到相同的Hash結果。因此,一旦文件被修改,就可檢測出來。
當我們的文件放到emule里面進行共享發布的時候,
emule會根據
hash算法自動生成這個文件的hash值,他就是這個文件唯一的身份標志,它包含了這個文件的基本信息,然后把它提交到所連接的服務器。當有他人想對這個文件提出下載請求的時候, 這個hash值可以讓他人知道他正在下載的文件是不是就是他所想要的。尤其是在文件的其他屬性被更改之后(如名稱等)這個值就更顯得重要。而且服務器還提供了,這個文件當前所在的用戶的地址,端口等信息,這樣emule就知道到哪里去下載了。
一般來講我們要搜索一個文件,emule在得到了這個信息后,會向被添加的服務器發出請求,要求得到有相同hash值的文件。而服務器則返回持有這個文件的用戶信息。這樣我們的客戶端就可以直接的和擁有那個文件的用戶溝通,看看是不是可以從他那里下載所需的文件。
對於emule中文件的hash值是固定的,也是唯一的,它就相當於這個文件的信息摘要,無論這個文件在誰的機器上,他的hash值都是不變的,無論過了多長時間,這個值始終如一,當我們在進行文件的下載上傳過程中,emule都是通過這個值來確定文件。
hash文件
我們經常在emule日志里面看到,emule正在hash文件,這里就是利用了hash算法的
文件校驗性這個功能了,文章前面已經說了一些這些功能,其實這部分是一個非常復雜的過程,在ftp,bt等軟件里面都是用的這個基本原理,emule里面是采用文件分塊傳輸,這樣傳輸的每一塊都要進行對比校驗,如果錯誤則要進行重新下載,這期間這些相關信息寫入met文件,直到整個任務完成,這個時候part文件進行重新命名,然后使用move命令,把它傳送到incoming文件里面,然后met文件自動刪除,所以我們有的時候會遇到hash文件失敗,就是指的是met里面的信息出了錯誤不能夠和part文件匹配,另外有的時候開機也要瘋狂hash,有兩種情況一種是你在第一次使用,這個時候要hash提取所有文件信息,還有一種情況就是上一次你
非法關機,那么這個時候就是要進行排錯校驗了。
關於hash的算法研究,一直是信息科學里面的一個前沿,尤其在
網絡技術普及的今天,他的重要性越來越突出,其實我們每天在網上進行的信息交流安全驗證,我們在使用的操作系統
密鑰原理,里面都有它的身影,特別對於那些研究信息安全有興趣的朋友,這更是一個打開信息世界的鑰匙,他在hack世界里面也是一個研究的焦點。
userhash
道理同上,當我們在第一次使用emule的時候,emule會自動生成一個值,這個值也是唯一的,它是我們在emule世界里面的標志,只要你不卸載,不刪除config,你的userhash值也就永遠不變,積分制度就是通過這個值在起作用,emule里面的積分保存,身份識別,都是使用這個值,而和你的id和你的用戶名無關,你隨便怎么改這些東西,你的userhash值都是不變的,這也充分保證了公平性。其實他也是一個信息摘要,只不過保存的不是文件信息,而是我們每個人的信息。
散列表
散列表是
散列函數的一個主要應用,使用散列表能夠快速的按照關鍵字查找數據記錄。(注意:關鍵字不是像在加密中所使用的那樣是秘密的,但它們都是用來“解鎖”或者訪問數據的。)例如,在英語字典中的關鍵字是英文單詞,和它們相關的記錄包含這些單詞的定義。在這種情況下,散列函數必須把按照字母順序排列的字符串映射到為散列表的內部
數組所創建的索引上。
散列表散列函數的幾乎不可能/不切實際的理想是把每個關鍵字映射到唯一的索引上(參考完美散列),因為這樣能夠保證直接
訪問表中的每一個數據。
一個好的散列函數(包括大多數
加密散列函數)具有均勻的真正隨機輸出,因而平均只需要一兩次探測(依賴於裝填因子)就能找到目標。同樣重要的是,隨機
散列函數幾乎不可能出現非常高的沖突率。但是,少量的可以估計的沖突在實際狀況下是不可避免的(參考生日悖論)。
在很多情況下,heuristic散列函數所產生的沖突比隨機散列函數少的多。Heuristic函數利用了相似關鍵字的相似性。例如,可以設計一個heuristic函數使得像FILE0000.CHK,FILE0001.CHK,FILE0002.CHK,等等這樣的文件名映射到表的連續指針上,也就是說這樣的序列不會發生沖突。相比之下,對於一組好的關鍵字性能出色的隨機散列函數,對於一組壞的關鍵字經常性能很差,這種壞的關鍵字會自然產生而不僅僅在攻擊中才出現。性能不佳的
散列函數表意味着查找操作會退化為費時的線性搜索。
擴展
MD5、SHA1的破解
2004年8月17日,在美國
加州聖芭芭拉召開的國際密碼大會上,山東大學
王小雲教授在國際會議上首次宣布了她及她的研究小組的研究成果——對
MD5、HAVAL-128、MD4和
RIPEMD四個著名
密碼算法的破譯結果。次年二月宣布破解
SHA-1密碼。
命令描述
Linux命令——hash
hash命令用來顯示、添加和清除
哈希表。該命令的語法格式如下所示。
語法
hash [-l] [-r] [-p <path> <name>] [-t <command>]
選項說明
選項
|
說明
|
-l
|
顯示哈希表,包括路徑
|
-r
|
清除哈希表
|
-p <path> <name>
|
向哈希表中增加內容
|
-t <command>
|
顯示指定命令的完整路徑
|
HASH命令
hash 每次傳輸完
數據緩沖區中的數據后就顯示一個#號
- 中文名
- 哈希算法
- 外文名
- Hash
- 別 稱
- 散列
- 應用學科
- 程序加密
- 適用領域范圍
- 網絡,軟件
基本特點
哈希表是根據設定的哈希函數H(key)和處理沖突方法將一組關鍵字映射到一個有限的地址區間上,並以關鍵字在地址區間中的象作為記錄在表中的存儲位置,這種表稱為哈希表或散列,所得存儲位置稱為哈希地址或散列地址。作為線性數據結構與表格和隊列等相比,哈希表無疑是查找速度比較快的一種。
通過將單向數學函數(有時稱為“哈希算法”)應用到任意數量的數據所得到的固定大小的結果。如果輸入數據中有變化,則哈希也會發生變化。哈希可用於許多操作,包括身份驗證和數字簽名。也稱為“消息摘要”。
簡單解釋:哈希(Hash)算法,即散列函數。它是一種單向密碼體制,即它是一個從明文到密文的不可逆的映射,只有加密過程,沒有解密過程。同時,哈希函數可以將任意長度的輸入經過變化以后得到固定長度的輸出。哈希函數的這種單向特征和輸出數據長度固定的特征使得它可以生成消息或者數據。[1]
內容
class GeneralHashFunctionLibrary {/*RSHash*/ public long RSHash(String str) { int b = 378551; int a = 63689; long hash = 0; for(int i = 0; i < str.length(); i++) { hash = hash * a + str.charAt(i); a = a * b; } return hash; } /*JSHash*/ public long JSHash(String str) { long hash = 1315423911; for(int i = 0; i < str.length(); i++) hash ^= ((hash << 5) + str.charAt(i) + (hash >> 2)); return hash; } /*PJWHash*/ public long PJWHash(String str) { long BitsInUnsignedInt = (long)(4 * 8); long ThreeQuarters = (long)((BitsInUnsignedInt * 3) / 4); long OneEighth = (long)(BitsInUnsignedInt / 8); long HighBits = (long)(0xFFFFFFFF)<<(BitsInUnsignedInt-OneEighth); long hash = 0; long test = 0; for(int i = 0; i < str.length(); i++) { hash = (hash << OneEighth) + str.charAt(i); if((test = hash & HighBits) != 0) hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits)); } return hash; } /*ELFHash*/ public long ELFHash(String str) { long hash = 0; long x = 0; for(int i = 0; i < str.length(); i++) { hash = (hash << 4) + str.charAt(i); if(( x = hash & 0xF0000000L) != 0) hash ^= ( x >> 24); hash &= ~x; } return hash; } /*BKDRHash*/ public long BKDRHash(String str) { long seed = 131;//31131131313131131313etc.. long hash = 0; for(int i = 0; i < str.length(); i++) hash = (hash * seed) + str.charAt(i); return hash; } /*SDBMHash*/ public long SDBMHash(String str) { long hash = 0; for(int i = 0; i < str.length(); i++) hash = str.charAt(i) + (hash << 6) + (hash << 16) - hash; return hash; } /*DJBHash*/ public long DJBHash(String str) { long hash = 5381; for(int i = 0; i < str.length(); i++) hash = ((hash << 5) + hash) + str.charAt(i); return hash; } /*DEKHash*/ public long DEKHash(String str) { long hash = str.length(); for(int i = 0; i < str.length(); i++) hash = ((hash << 5) ^ (hash >> 27)) ^ str.charAt(i); return hash; } /*BPHash*/ public long BPHash(String str) { long hash=0; for(int i = 0;i < str.length(); i++) hash = hash << 7 ^ str.charAt(i); return hash; } /*FNVHash*/ public long FNVHash(String str) { long fnv_prime = 0x811C9DC5; long hash = 0; for(int i = 0; i < str.length(); i++) { hash *= fnv_prime; hash ^= str.charAt(i); } return hash; } /*APHash*/ long APHash(String str) { long hash = 0xAAAAAAAA; for(int i = 0; i < str.length(); i++) { if((i & 1) == 0) hash ^=((hash << 7) ^ str.charAt(i) ^ (hash >> 3)); else hash ^= (~((hash << 11) ^ str.charAt(i) ^ (hash >> 5))); } return hash; } }
計算方法
用來產生一些數據片段(例如消息或會話項)的哈希值的算法。使用好的哈希算法,在輸入數據中所做的更改就可以更改結果哈希值中的所有位;因此,哈希對於檢測數據對象(例如消息)中的修改很有用。此外,好的哈希算法使得構造兩個相互獨立且具有相同哈希的輸入不能通過計算方法實現。典型的哈希算法包括 MD2、MD4、MD5 和 SHA-1。哈希算法也稱為“哈希函數”。[1]
另請參閱: 基於哈希的消息驗證模式 (HMAC), MD2, MD4, MD5,消息摘要, 安全哈希算法 (SHA-1)
MD5一種符合工業標准的單向 128 位哈希方案,由 RSA Data Security, Inc. 開發。 各種“點對點協議(PPP)”供應商都將它用於加密的身份驗證。哈希方案是一種以結果唯一並且不能返回到其原始格式的方式來轉換數據(如密碼)的方法。質詢握手身份驗證協議(CHAP) 使用質詢響應並在響應時使用單向 MD5哈希法。按照此方式,您無須通過網絡發送密碼就可以向服務器證明您知道密碼。
質詢握手身份驗證協議(CHAP)“點對點協議(PPP)”連接的一種質詢響應驗證協議,在 RFC 1994 中有所描述。 該協議使用業界標准 MD5哈希算法來哈希質詢串(由身份驗證服務器所發布)和響應中的用戶密碼的組合。
點對點協議
用點對點鏈接來傳送多協議數據報的行業標准協議套件。RFC 1661 中有關於 PPP 的文檔。