原文發表在我的博客主頁,轉載請注明出處。
前言
據統計,在所有程序中,關於字符串處理的程序占到了百分之八十以上,所以關於字符串處理的算法十分多,而且關於數字處理的很多算法同樣可以用於字符串中,包括本文提到的快速排序,除此之外關於字符串還有很多其他的算法,比如回文串,重復子串等等,這些問題還可以組合成為更復雜的問題,在字符串處理中,有一些較復雜或者說適用性不廣的算法,即這個算法只對這類題目適用,但是他確實很巧妙。當然這些都不是重點,重點是將算法當作藝術去品,看見其魅力便可。閑話少說,開始正文。
問題
這個問題有很多版本,下面的便是一種經典的出題方式(題目來自於網上):
給定一個文本文件作為輸入,查找其中最長的重復子字符串。例如,"Ask not what your country can do for you, but what you can do for your country"中最長的重復字符串是“can do for you”,第二長的是"your country"。
講解
看完這個題目,片刻思忖,相信大多數人會和我一樣得到最naive的解法,暴力解決辦法,枚舉遍歷等等,因為這個題目本身給人一種重復性很強的感覺,所以算法的時間復雜度不會太低,想在O(N)時間內解決基本不大可能。naive的解法有我經過思考和參考列舉下面兩種,不附代碼了,只用文字描述。
- 第一種方法,時間復雜度:O(N^3)
如下圖:有一個字符串“abacdbacf”,我們用兩個指針,p1從頭開始,p2從p1+1開始,進行兩層循環,在每層循環內部,尋找p1和p2所指的字符串的最長公共子串,這個思路比較簡單,時間復雜度也容易求得,偽代碼如下:
def find_longest_repeating_strings(string):
for p1 in range(len(string)):
for p2 in range(p1+1, len(string)):
max = find_common_string()
return max
- 第二種方法,時間復雜度:O(N^3)
和第一種方法十分類似,都是遍歷的思想,這次從長度開始,同樣用兩個指針,只是外層循環從1到字符串長度來控制p1和p2所指的要比較子串的長度,時間復雜度也十分容易分析,偽代碼如下:
def find_longest_repeating_strings(string):
for i in range(1, len(string)):
for p1 in range(len(string)-i):
for p2 in range(p1+1, len(string)-i):
max = find_common_string()
return max
- 第三種方法,時間復雜度:O(N^2logN)
這種方法用到了后綴數組,后綴數組是什么呢?用我自己理解來說,后綴是相對於前綴來說,前綴就是一個字符串的左子集,那后綴就是字符串的右子集,字符串的所有右子集的集合便組成了后綴數組。比如字符串“abc”的后綴數組就是["abc","bc","c"],很好理解吧。接下來先講解第三種方法,以“abacdbacf”為例,然后再講為什么這樣可以,我想像我這種見識少的人會吃驚的。
- 求字符串的后綴數組
求解方法剛才已經說過,得到的后綴數組為:[abacdbacf,bacdbacf,acdbacf,cdbacf,dbacf,bacf,acf,acf,cf,f] - 將字符串的后綴數組按照字典序進行排序
可以使用任何方法將后綴數組進行排序,排序是按照字符的ASCII排序,我這里選擇的是快速排序。排序后的結果為:['abacdbacf', 'acdbacf', 'acf', 'bacdbacf', 'bacf', 'cdbacf', 'cf', 'dbacf', 'f'] - 兩兩從頭比較比較排序后的后綴數組相鄰的兩個字符串的公共子串
分別比較后綴數組里面相鄰的兩個字符串的公共子串,得到的最長公共子串即為題目所求,比如“abacdbacf”和“acdbacf”的最長公共子串為“a”,注意這里只需要從頭比較,比如“banana”和“ana”的最長公共子串為“”,而不是“ana”,至於原因,接下來解釋。
操作的步驟講解完畢,由於在快速排序中我們的時間復雜度可以達到O(NlogN),所以最終的時間復雜度減少了,為O(N^2logN),為什么可以這樣做呢?考慮第一種用兩個指針的方法,不失一般性,假設現在指針指向了任意兩個字符x,y,接下來需要的便是比較其指向的字符串的公共子串,這和先求后綴子串其實是一個道理,那求后綴子串的優勢在哪里呢?不用挨個重復遍歷,在得到了后綴數組之后,我們按照字典序進行排序,所有具有最長公共子串的肯定會相鄰,所以在得到排好序的后綴數組之后,只需要O(N)的時間復雜度便可得到結果,但是要注意這里的最長公共子串是從第一個字符串開始比較,一旦不同,立馬返回,比如“banana”和“ana”的最長公共子串為“”,而不是“ana”,因為您只要稍微想一下,就會發現,“anana”也是后綴數組中的一元素。最后附上代碼如下,或者直接從github下載:
def partition(suffix_array, start, end):
if end <= start:
return
index1, index2 = start, end
base = suffix_array[start]
while index1 < index2 and suffix_array[index2] >= base:
index2 -= 1
suffix_array[index1] = suffix_array[index2]
while index1 < index2 and suffix_array[index1] <= base:
index1 += 1
suffix_array[index2] = suffix_array[index1]
suffix_array[index1] = base
partition(suffix_array, start, index1 - 1)
partition(suffix_array, index1 + 1, end)
def find_common_string(str1, str2):
if not str1 or not str2:
return 0, ''
index1, index2 = 0, 0
length, comm_substr = 0, ''
while index1 < len(str1) and index2 < len(str2):
if str1[index1] == str2[index2]:
length += 1
comm_substr += str1[index1]
else:
break
index1 += 1
index2 += 1
return length, comm_substr
def find_longest_repeating_strings(string):
if not string:
return None, None
suffix_array = []
# first, get the suffix arrays
length = len(string)
for i in range(length):
suffix_array.append(string[i:])
# second, sort suffix array
start, end = 0, len(suffix_array) - 1
partition(suffix_array, start, end)
# third, get the longest repeating substring
max_length, repeat_substring = 0, ''
for i in range(len(suffix_array) - 1):
common_len, common_substring = find_common_string(suffix_array[i], suffix_array[i+1])
if common_len > max_length:
max_length, repeat_substring = common_len, common_substring
return max_length, repeat_substring
if __name__ == "__main__":
string = "Ask not what your country can do for you, but what you can do for your country"
length, substr = find_longest_repeating_strings(string)
print length, substr
總結
關於字符串的處理有太多的巧招妙招,本文只是其中的一種,總之自己看完這種解法之后,大呼美妙~