Given a string S and a string T, find the minimum window in S which will contain all the characters in T in complexity O(n).
Example:
Input: S = "ADOBECODEBANC", T = "ABC" Output: "BANC"
Note:
- If there is no such window in S that covers all characters in T, return the empty string
""
. - If there is such window, you are guaranteed that there will always be only one unique minimum window in S.
這道題給了我們一個原字符串S,還有一個目標字符串T,讓在S中找到一個最短的子串,使得其包含了T中的所有的字母,並且限制了時間復雜度為 O(n)。這道題的要求是要在 O(n) 的時間度里實現找到這個最小窗口字串,暴力搜索 Brute Force 肯定是不能用的,因為遍歷所有的子串的時間復雜度是平方級的。那么來想一下,時間復雜度卡的這么嚴,說明必須在一次遍歷中完成任務,當然遍歷若干次也是 O(n),但不一定有這個必要,嘗試就一次遍歷拿下!那么再來想,既然要包含T中所有的字母,那么對於T中的每個字母,肯定要快速查找是否在子串中,既然總時間都卡在了 O(n),肯定不想在這里還浪費時間,就用空間換時間(也就算法題中可以這么干了,七老八十的富翁就算用大別野也換不來時間啊。依依東望,望的就是時間吶 T.T),使用 HashMap,建立T中每個字母與其出現次數之間的映射,那么你可能會有疑問,為啥不用 HashSet 呢,別急,講到后面你就知道用 HashMap 有多妙,簡直妙不可言~
目前在腦子一片漿糊的情況下,我們還是從簡單的例子來分析吧,題目例子中的S有點長,換個短的 S = "ADBANC",T = "ABC",那么肉眼遍歷一遍S唄,首先第一個是A,嗯很好,T中有,第二個是D,T中沒有,不理它,第三個是B,嗯很好,T中有,第四個又是A,多了一個,禮多人不怪嘛,收下啦,第五個是N,一邊涼快去,第六個終於是C了,那么貌似好像需要整個S串,其實不然,注意之前有多一個A,就算去掉第一個A,也沒事,因為第四個A可以代替之,第二個D也可以去掉,因為不在T串中,第三個B就不能再去掉了,不然就沒有B了。所以最終的答案就"BANC"了。通過上面的描述,你有沒有發現一個有趣的現象,先擴展,再收縮,就好像一個窗口一樣,先擴大右邊界,然后再收縮左邊界,上面的例子中右邊界無法擴大了后才開始收縮左邊界,實際上對於復雜的例子,有可能是擴大右邊界,然后縮小一下左邊界,然后再擴大右邊界等等。這就很像一個不停滑動的窗口了,這就是大名鼎鼎的滑動窗口 Sliding Window 了,簡直是神器啊,能解很多子串,子數組,子序列等等的問題,是必須要熟練掌握的啊!
下面來考慮用代碼來實現,先來回答一下前面埋下的伏筆,為啥要用 HashMap,而不是 HashSet,現在應該很顯而易見了吧,因為要統計T串中字母的個數,而不是僅僅看某個字母是否在T串中出現。統計好T串中字母的個數了之后,開始遍歷S串,對於S中的每個遍歷到的字母,都在 HashMap 中的映射值減1,如果減1后的映射值仍大於等於0,說明當前遍歷到的字母是T串中的字母,使用一個計數器 cnt,使其自增1。當 cnt 和T串字母個數相等時,說明此時的窗口已經包含了T串中的所有字母,此時更新一個 minLen 和結果 res,這里的 minLen 是一個全局變量,用來記錄出現過的包含T串所有字母的最短的子串的長度,結果 res 就是這個最短的子串。然后開始收縮左邊界,由於遍歷的時候,對映射值減了1,所以此時去除字母的時候,就要把減去的1加回來,此時如果加1后的值大於0了,說明此時少了一個T中的字母,那么 cnt 值就要減1了,然后移動左邊界 left。你可能會疑問,對於不在T串中的字母的映射值也這么加呀減呀的,真的大丈夫(帶膠布)嗎?其實沒啥事,因為對於不在T串中的字母,減1后,變-1,cnt 不會增加,之后收縮左邊界的時候,映射值加1后為0,cnt 也不會減少,所以並沒有什么影響啦,下面是具體的步驟啦:
- 先掃描一遍T,把對應的字符及其出現的次數存到 HashMap 中。
- 然后開始遍歷S,就把遍歷到的字母對應的 HashMap 中的 value 減一,如果減1后仍大於等於0,cnt 自增1。
- 如果 cnt 等於T串長度時,開始循環,紀錄一個字串並更新最小字串值。然后將子窗口的左邊界向右移,如果某個移除掉的字母是T串中不可缺少的字母,那么 cnt 自減1,表示此時T串並沒有完全匹配。
解法一:
class Solution { public: string minWindow(string s, string t) { string res = ""; unordered_map<char, int> letterCnt; int left = 0, cnt = 0, minLen = INT_MAX; for (char c : t) ++letterCnt[c]; for (int i = 0; i < s.size(); ++i) { if (--letterCnt[s[i]] >= 0) ++cnt; while (cnt == t.size()) { if (minLen > i - left + 1) { minLen = i - left + 1; res = s.substr(left, minLen); } if (++letterCnt[s[left]] > 0) --cnt; ++left; } } return res; } };
這道題也可以不用 HashMap,直接用個 int 的數組來代替,因為 ASCII 只有256個字符,所以用個大小為 256 的 int 數組即可代替 HashMap,但由於一般輸入字母串的字符只有 128 個,所以也可以只用 128,其余部分的思路完全相同,雖然只改了一個數據結構,但是運行速度提高了一倍,說明數組還是比 HashMap 快啊。在熱心網友 chAngelts 的提醒下,還可以進一步的優化,沒有必要每次都計算子串,只要有了起始位置和長度,就能唯一的確定一個子串。這里使用一個全局變量 minLeft 來記錄最終結果子串的起始位置,初始化為 -1,最終配合上 minLen,就可以得到最終結果了。注意在返回的時候要檢測一下若 minLeft 仍為初始值 -1,需返回空串,參見代碼如下:
解法二:
class Solution { public: string minWindow(string s, string t) { vector<int> letterCnt(128, 0); int left = 0, cnt = 0, minLeft = -1, minLen = INT_MAX; for (char c : t) ++letterCnt[c]; for (int i = 0; i < s.size(); ++i) { if (--letterCnt[s[i]] >= 0) ++cnt; while (cnt == t.size()) { if (minLen > i - left + 1) { minLen = i - left + 1; minLeft = left; } if (++letterCnt[s[left]] > 0) --cnt; ++left; } } return minLeft == -1 ? "" : s.substr(minLeft, minLen); } };
Github 同步地址:
https://github.com/grandyang/leetcode/issues/76
類似題目:
Substring with Concatenation of All Words
參考資料:
https://leetcode.com/problems/minimum-window-substring/