字符串哈希

本文轉載自查看原文 2021-12-24 14:08 1068 數據結構和算法

1、概念

將一個字符串轉化成一個整數，並保證字符串不同，得到的哈希值不同，當然字符串相同的時候保證哈希值相同。這樣就可以用來判斷一個該字串是否重復出現過。

為什么需要有這種算法，例如在java中，定義一個map，如果直接把string當做鍵，則每次在map中查找時要一個一個字符地找，跟存在數組中區別不大，而比較數值自然更快。

下面介紹一種常用方法

2、字符串哈希算法

由哈希函數的性質，對於一個字符串：S=s1s2...sn,我們把每個字符轉換成idx(si)=si-'a'，當然直接用字符串的ASCII碼表示也可以，則哈希模型為Hash(i)=Hash(i-1)*p+idx(si),其中p為素數。最終算出的Hash(n)作為該字符串的哈希值。

所以構造哈希函數的關鍵點在於使不同字符串的哈希沖突率盡可能小。

2.1 一般過程

取一固定值P，P為質數，把字符串看作P進制數，並分配一個大於0的數值，代表每種字符。一般來說，我們分配的數值都遠小於P。例如，對於小寫字母構成的字符串，可以令

一般來說，我們取P=131或P=131313，此時Hash值產生沖突的概率極低，只要Hash值相同，我們就可以認為原字符串是相等的。

通常我們取 $M=2^64，即直接使用unsigned long long類型存儲這個Hash值，在計算時不處理算術溢出問題，產生溢出時相當於自動對2^64取模，這樣可以避免低效的取模運算。$

除了在及特殊構造的數據上，上述Hash很難產生沖突，一般情況下上述Hash算法完全可以出現在題目的標准解答中。

2.2 計算

對字符串的各種操作，都可以直接對P進制數進行算數運算反映到Hash值上。

如果我們已知字符串S的Hash值為H(S)，在S后添加一個字符c構成的新字符串S+c的Hash值就是

如果我們已知字符串S的Hash值為H(S)，字符串S+T的Hash值為

$^length(T) ) mod M$

$^length(T) ) mod M + M ）mod M$

可能看着不是很好理解，舉個栗子：

例如，S=“abc”，c=“d”，T=“xyz”，則：
S表示為P進制數: 1 2 3
H(S) = 1 ∗ P2 + 2 ∗ P + 3
H(S+c) = 1 ∗ P3 + 2 ∗ P2 + 3 ∗ P + 4 = H(S) ∗ P + 4

 

S+T表示為P進制數: 1 2 3 24 25 26
H(S+T) = 1 ∗ P5 + 2 ∗ P4 + 3 ∗ P3 + 24 ∗ P2 + 25 ∗ P + 26
S在P進制下左移length(T) 位: 1 2 3 0 0 0
二者相減就是T表示為P進制數: 24 25 26
H(T) = H(S+T) − ( 1∗P2 + 2 ∗ P + 3 ) ∗ P3 = 24 ∗ P2 + 25 ∗ P + 26

根據上面兩種操作，我們可以通過O(N)的時間預處理字符串所有前綴Hash值，並在O(1)的時間內查詢它的任意子串的Hash值。

2.3 代碼

放個python版本

def getStrHash(s):
    """
    注意 python 沒有溢出
    :param s: 
    :return: 
    """
    n = len(s)
    h = [0] * (n + 1) # 存儲字符串前綴的hashcode
    p = [0] * (n + 1)
    p[0] = 1 # 預處理p的n次方
    prime = 13131 # p進制

    for i in range(1, n + 1):
        h[i] = h[i - 1] * prime + ord(s[i - 1])
        p[i] = p[i-1] * prime

    print(h)
    print(p)

    length = 4 #子串的長度
    res = [] #存儲子串
    resHash = [] # 存儲子串的hashcode
    for i in range(n):
        j = i + length
        if j <= n:
            res.append(s[i:j])
            hash = h[j]-h[i]*p[j-i]
            resHash.append(hash)

    for i in range(len(res)):
        print(res[i], resHash[i])


if __name__ == '__main__':
    s = "abcdefgabcdefg"
    getStrHash(s)

2.4 一些tips

雙哈希

上述使用的單哈希方式，p,mod均為質數，p<mod，p、mod取盡量大時沖突很小。除此之外，我們也可以使用雙哈希方法，來減小沖突

雙哈希方法：將字符串用不同mod單哈希兩次，結果用二元組表示

Hash1[i] = （ Hash1[i-1] * p + idx(si) ）% mod

Hash2[i] = （ Hash2[i-1] * p + idx(si) ）% mod

Hash[i]：<Hash1[i]，Hash2[i]>

這種方法很安全。

質數的選擇

像1e9+7等常見素數很可能被出題人卡，所以可以選擇一些其他的素數：

比如，131 1313 131313 字符串哈希本身存在哈希沖突的可能，一般會在嘗試131之后嘗試使用1313之類，然后再嘗試使用更大的質數。

取模

取模不一定是必要的，例如Python可以不用取模 java可以靠自動溢出

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 字符串哈希字符串哈希字符串哈希（進制哈希） Python 字符串哈希字符串哈希函數字符串哈希算法【模板】字符串哈希字符串哈希函數 HASH 字符串哈希映射轉化詳解HASH(字符串哈希)