Given a string s
, consider all duplicated substrings: (contiguous) substrings of s that occur 2 or more times. The occurrences may overlap.
Return any duplicated substring that has the longest possible length. If s
does not have a duplicated substring, the answer is ""
.
Example 1:
Input: s = "banana"
Output: "ana"
Example 2:
Input: s = "abcd"
Output: ""
Constraints:
2 <= s.length <= 3 * 104
s
consists of lowercase English letters.
這道題給了一個字符串s,讓找出最長的重復子串,且說明了重復子串可以重疊,若不存在,則返回空串。雖然博主之前說過玩字符串求極值的題十有八九都是用動態規划來做,but,這道題是個例外,因為很難實現子問題的重現,從而很難寫出狀態轉移方程。實際上這道題是應該用二分搜索法來做的,因為最長重復子串的長度是有范圍的,是0到n之間,對於二分到的長度 mid,使用 Rabin–Karp 算法來快速找到原字符串中是否存在長度為 mid 的重復子串。然后跟結果 res 比較,若大於 res,則更新 res 且 left 賦值為 mid+1,否則 right 賦值為 mid。接下來說說這個 Rabin–Karp 算法,是一種快速的字符串比較算法,跟 KMP 算法一樣都是字符串匹配的算法,關於 KMP 算法可以參見博主之前的帖子 KMP Algorithm 字符串匹配算法KMP小結。這里的 Rabin–Karp 算法跟 KMP 有很大的不同,主要是將相同都子串都編碼成一個 Hash 值,這樣只要查找該 Hash 值是否存在就可以快速知道該子串是否存在。編碼的方法是用 26 進制,因為限制了都是小寫字母,為了防止整型溢出,需要對一個超大的質數取余。這里找重復子串利用到了一個滑動窗口,首先對窗口中的字符串編碼成 26 進制,並且用一個 HashMap 將這個編碼值映射到該子串的起始坐標的集合。然后就要移動滑動窗口了,首先需要去掉最左邊的一個字符,那么編碼值會如何變化呢,來看一個簡單的例子 "bcd",編碼值的計算式為 ((1 * 26) + 2) * 26 + 3
,化簡一下為 1 * 26^2 + 2 * 26 + 3
,實際上要減去的值為 1 * 26^2
。由於滑動窗口的長度可能很大,為了不每次都從頭開始計算 26 的次方,使用一個 power 數組來緩存 26 的次方,由於還是可能整型溢出,所以還是要對一個超大質數取余,這里的超大質數使用 1e7,也可以使用別的,但是注意起碼要小於 INT_MAX/26
,不然還是會有溢出的風險。加上的新的字符就比較簡單了,當前的編碼值乘以 26 再加上新的字符值。接下來看這個新得到的編碼值,假如在 HashMap 中不存在,則映射到新的數組;若存在,則遍歷當前映射值的數組,分別取出對應的子數組,若和當前子串相同,則返回,否則將當前子串起始位置加入到映射數組中,參見代碼如下:
class Solution {
public:
string longestDupSubstring(string s) {
string res;
int n = s.size(), left = 0, right = n, M = 1e7 + 7;
vector<int> power(n);
for (int i = 0; i < n; ++i) {
power[i] = (i == 0) ? 1 : (power[i - 1] * 26) % M;
}
while (left < right) {
int mid = left + (right - left) / 2;
string dup = rabinKarp(s, mid, power);
if (dup.size() > res.size()) {
res = dup;
left = mid + 1;
} else {
right = mid;
}
}
return res;
}
string rabinKarp(string s, int len, vector<int>& power) {
if (len == 0) return "";
int n = s.size(), cur = 0, M = 1e7 + 7;
unordered_map<int, vector<int>> hash;
for (int i = 0; i < len; ++i) {
cur = (cur * 26 + (s[i] - 'a')) % M;
}
hash[cur] = {0};
for (int i = len; i < n; ++i) {
cur = ((cur - power[len - 1] * (s[i - len] - 'a')) % M + M) % M;
cur = (cur * 26 + (s[i] - 'a')) % M;
if (!hash.count(cur)) {
hash[cur] = {i - len + 1};
} else {
for (int idx : hash[cur]) {
if (s.substr(idx, len) == s.substr(i - len + 1, len)) return s.substr(idx, len);
}
hash[cur].push_back(i - len + 1);
}
}
return "";
}
};
Github 同步地址:
https://github.com/grandyang/leetcode/issues/1044
參考資料:
https://leetcode.com/problems/longest-duplicate-substring/
https://leetcode.com/problems/longest-duplicate-substring/discuss/694963/Beats-100-using-Trie-tree