窺探算法之美妙——詳細講解尋找最長重復字符串的原理

本文轉載自查看原文 2016-02-23 21:46 8715 算法/ python/ 字符串/ 找最長重復字符串

原文發表在我的博客主頁,轉載請注明出處。

前言

據統計，在所有程序中，關於字符串處理的程序占到了百分之八十以上，所以關於字符串處理的算法十分多，而且關於數字處理的很多算法同樣可以用於字符串中，包括本文提到的快速排序，除此之外關於字符串還有很多其他的算法，比如回文串，重復子串等等，這些問題還可以組合成為更復雜的問題，在字符串處理中，有一些較復雜或者說適用性不廣的算法，即這個算法只對這類題目適用，但是他確實很巧妙。當然這些都不是重點，重點是將算法當作藝術去品，看見其魅力便可。閑話少說，開始正文。

問題

這個問題有很多版本，下面的便是一種經典的出題方式（題目來自於網上）：
給定一個文本文件作為輸入，查找其中最長的重復子字符串。例如，"Ask not what your country can do for you, but what you can do for your country"中最長的重復字符串是“can do for you”，第二長的是"your country"。

講解

看完這個題目，片刻思忖，相信大多數人會和我一樣得到最naive的解法，暴力解決辦法，枚舉遍歷等等，因為這個題目本身給人一種重復性很強的感覺，所以算法的時間復雜度不會太低，想在O(N)時間內解決基本不大可能。naive的解法有我經過思考和參考列舉下面兩種，不附代碼了，只用文字描述。

第一種方法，時間復雜度：O(N^3)

如下圖：有一個字符串“abacdbacf”，我們用兩個指針，p1從頭開始，p2從p1+1開始，進行兩層循環，在每層循環內部，尋找p1和p2所指的字符串的最長公共子串，這個思路比較簡單，時間復雜度也容易求得，偽代碼如下：

def find_longest_repeating_strings(string):
    for p1 in range(len(string)):
        for p2 in range(p1+1, len(string)):
            max = find_common_string()
    return max

第二種方法，時間復雜度：O(N^3)

和第一種方法十分類似，都是遍歷的思想，這次從長度開始，同樣用兩個指針，只是外層循環從1到字符串長度來控制p1和p2所指的要比較子串的長度，時間復雜度也十分容易分析，偽代碼如下：

def find_longest_repeating_strings(string):
    for i in range(1, len(string)):
        for p1 in range(len(string)-i):
            for p2 in range(p1+1, len(string)-i):
                max = find_common_string()
    return max

第三種方法，時間復雜度：O(N^2logN)
這種方法用到了后綴數組，后綴數組是什么呢？用我自己理解來說，后綴是相對於前綴來說，前綴就是一個字符串的左子集，那后綴就是字符串的右子集，字符串的所有右子集的集合便組成了后綴數組。比如字符串“abc”的后綴數組就是["abc","bc","c"]，很好理解吧。接下來先講解第三種方法，以“abacdbacf”為例，然后再講為什么這樣可以，我想像我這種見識少的人會吃驚的。

求字符串的后綴數組
求解方法剛才已經說過，得到的后綴數組為：[abacdbacf,bacdbacf,acdbacf,cdbacf,dbacf,bacf,acf,acf,cf,f]
將字符串的后綴數組按照字典序進行排序
可以使用任何方法將后綴數組進行排序，排序是按照字符的ASCII排序，我這里選擇的是快速排序。排序后的結果為：['abacdbacf', 'acdbacf', 'acf', 'bacdbacf', 'bacf', 'cdbacf', 'cf', 'dbacf', 'f']
兩兩從頭比較比較排序后的后綴數組相鄰的兩個字符串的公共子串
分別比較后綴數組里面相鄰的兩個字符串的公共子串，得到的最長公共子串即為題目所求，比如“abacdbacf”和“acdbacf”的最長公共子串為“a”，注意這里只需要從頭比較，比如“banana”和“ana”的最長公共子串為“”，而不是“ana”，至於原因，接下來解釋。

操作的步驟講解完畢，由於在快速排序中我們的時間復雜度可以達到O(NlogN)，所以最終的時間復雜度減少了，為O(N^2logN)，為什么可以這樣做呢？考慮第一種用兩個指針的方法，不失一般性，假設現在指針指向了任意兩個字符x,y,接下來需要的便是比較其指向的字符串的公共子串，這和先求后綴子串其實是一個道理，那求后綴子串的優勢在哪里呢？不用挨個重復遍歷，在得到了后綴數組之后，我們按照字典序進行排序，所有具有最長公共子串的肯定會相鄰，所以在得到排好序的后綴數組之后，只需要O(N)的時間復雜度便可得到結果，但是要注意這里的最長公共子串是從第一個字符串開始比較，一旦不同，立馬返回，比如“banana”和“ana”的最長公共子串為“”，而不是“ana”，因為您只要稍微想一下，就會發現，“anana”也是后綴數組中的一元素。最后附上代碼如下，或者直接從github下載：

def partition(suffix_array, start, end):
    if end <= start:
        return
    index1, index2 = start, end
    base = suffix_array[start]
    while index1 < index2 and suffix_array[index2] >= base:
        index2 -= 1
    suffix_array[index1] = suffix_array[index2]
    while index1 < index2 and suffix_array[index1] <= base:
        index1 += 1
    suffix_array[index2] = suffix_array[index1]
    suffix_array[index1] = base
    partition(suffix_array, start, index1 -  1)
    partition(suffix_array, index1 + 1, end)

def find_common_string(str1, str2):
    if not str1 or not str2:
        return 0, ''
    index1, index2 = 0, 0
    length, comm_substr = 0, ''
    while index1 < len(str1) and index2 < len(str2):
        if str1[index1] == str2[index2]:
            length += 1
            comm_substr += str1[index1]
        else:
            break
        index1 += 1
        index2 += 1
    return length, comm_substr

def find_longest_repeating_strings(string):
    if not string:
        return None, None
    suffix_array = []
    # first, get the suffix arrays
    length = len(string)
    for i in range(length):
        suffix_array.append(string[i:])
    # second, sort suffix array
    start, end = 0, len(suffix_array) - 1
    partition(suffix_array, start, end)
    # third, get the longest repeating substring
    max_length,  repeat_substring = 0, ''
    for i in range(len(suffix_array) - 1):
        common_len, common_substring = find_common_string(suffix_array[i], suffix_array[i+1])
        if common_len > max_length:
            max_length, repeat_substring = common_len, common_substring
    return max_length, repeat_substring


if __name__ == "__main__":
    string = "Ask not what your country can do for you, but what you can do for your country"
    length, substr = find_longest_repeating_strings(string)
    print length, substr

總結

關於字符串的處理有太多的巧招妙招，本文只是其中的一種，總之自己看完這種解法之后，大呼美妙~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 編程珠璣：用后綴數組尋找最長重復字符串最長不重復字符串窺探算法之美妙——尋找數組中最小的K個數&python中巧用最大堆【算法剖析】求字符串中無重復字符的最長字串 java實戰字符串4：尋找最長的元音子串的長度算法練習：求字符串的最長重復子串(Java實現) 新增5 最長不含重復字符的子字符串求字符串中最長無重復字符的子串無重復字符的最長字符串長度-leetcode 獲取字符串最長不重復子串