[LeetCode] 187. Repeated DNA Sequences 求重復的DNA序列

本文轉載自查看原文 2015-02-10 16:11 14020 LeetCode

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

Example:

Input: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"

Output: ["AAAAACCCCC", "CCCCCAAAAA"]

看到這道題想到這應該屬於 CS 的一個重要分支生物信息 Bioinformatics 研究的內容，研究 DNA 序列特征的重要意義自然不用多說，但是對於我們廣大碼農來說，還是專注於算法吧，此題還是用位操作 Bit Manipulation 來求解，計算機由於其二進制存儲的特點可以很巧妙的解決一些問題，像之前的 Single Number 和 Single Number II 都是很巧妙利用位操作來求解。此題由於構成輸入字符串的字符只有四種，分別是 A, C, G, T，下面來看下它們的 ASCII 碼用二進制來表示：

A: 0100 0001　　C: 0100 0011　　G: 0100 0111　　T: 0101 0100

由於目的是利用位來區分字符，當然是越少位越好，通過觀察發現，每個字符的后三位都不相同，故而可以用末尾三位來區分這四個字符。而題目要求是 10 個字符長度的串，每個字符用三位來區分，10 個字符需要30位，在 32 位機上也 OK。為了提取出后 30 位，還需要用個 mask，取值為 0x7ffffff，用此 mask 可取出后27位，再向左平移三位即可。算法的思想是，當取出第十個字符時，將其存在 HashMap 里，和該字符串出現頻率映射，之后每向左移三位替換一個字符，查找新字符串在 HashMap 里出現次數，如果之前剛好出現過一次，則將當前字符串存入返回值的數組並將其出現次數加一，如果從未出現過，則將其映射到1。為了能更清楚的闡述整個過程，就用題目中給的例子來分析整個過程：

首先取出前九個字符 AAAAACCCC，根據上面的分析，用三位來表示一個字符，所以這九個字符可以用二進制表示為 001001001001001011011011011，然后繼續遍歷字符串，下一個進來的是C，則當前字符為 AAAAACCCCC，二進制表示為 001001001001001011011011011011，然后將其存入 HashMap 中，用二進制的好處是可以用一個 int 變量來表示任意十個字符序列，比起直接存入字符串大大的節省了內存空間，然后再讀入下一個字符C，則此時字符串為 AAAACCCCCA，還是存入其二進制的表示形式，以此類推，當某個序列之前已經出現過了，將其存入結果 res 中即可，參見代碼如下：

解法一：

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> res;
        if (s.size() <= 10) return res;
        int mask = 0x7ffffff, cur = 0;
        unordered_map<int, int> m;
        for (int i = 0; i < 9; ++i) {
            cur = (cur << 3) | (s[i] & 7);
        }
        for (int i = 9; i < s.size(); ++i) {
            cur = ((cur & mask) << 3) | (s[i] & 7);
            if (m.count(cur)) {
                if (m[cur] == 1) res.push_back(s.substr(i - 9, 10));
                ++m[cur]; 
            } else {
                m[cur] = 1;
            }
        }
        return res;
    }
};

上面的方法可以寫的更簡潔一些，這里可以用 HashSet 來代替 HashMap，只要當前的數已經在 HashSet 中存在了，就將其加入 res 中，這里 res 也定義成 HashSet，這樣就可以利用 HashSet 的不能有重復項的特點，從而得到正確的答案，最后將 HashSet 轉為 vector 即可，參見代碼如下：

解法二：

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        unordered_set<string> res;
        unordered_set<int> st;
        int cur = 0;
        for (int i = 0; i < 9; ++i) cur = cur << 3 | (s[i] & 7);
        for (int i = 9; i < s.size(); ++i) {
            cur = ((cur & 0x7ffffff) << 3) | (s[i] & 7);
            if (st.count(cur)) res.insert(s.substr(i - 9, 10));
            else st.insert(cur);
        }
        return vector<string>(res.begin(), res.end());
    }
};

上面的方法都是用三位來表示一個字符，這里可以用兩位來表示一個字符，00 表示A，01 表示C，10 表示G，11 表示T，那么總共需要 20 位就可以表示十個字符流，其余的思路跟上面的方法完全相同，注意這里的 mask 只需要表示 18 位，所以變成了 0x3ffff，參見代碼如下：

解法三：

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        unordered_set<string> res;
        unordered_set<int> st;
        unordered_map<int, int> m{{'A', 0}, {'C', 1}, {'G', 2}, {'T', 3}};
        int cur = 0;
        for (int i = 0; i < 9; ++i) cur = cur << 2 | m[s[i]];
        for (int i = 9; i < s.size(); ++i) {
            cur = ((cur & 0x3ffff) << 2) | (m[s[i]]);
            if (st.count(cur)) res.insert(s.substr(i - 9, 10));
            else st.insert(cur);
        }
        return vector<string>(res.begin(), res.end());
    }
};

如果不需要考慮節省內存空間，那可以直接將 10個字符組成字符串存入 HashSet 中，那么也就不需要 mask 啥的了，但是思路還是跟上面的方法相同:

解法四：

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        unordered_set<string> res, st;
        for (int i = 0; i + 9 < s.size(); ++i) {
            string t = s.substr(i, 10);
            if (st.count(t)) res.insert(t);
            else st.insert(t);
        }
        return vector<string>{res.begin(), res.end()};
    }
};

Github 同步地址：

https://github.com/grandyang/leetcode/issues/187

參考資料：

https://leetcode.com/problems/repeated-dna-sequences/

https://leetcode.com/problems/repeated-dna-sequences/discuss/53855/7-lines-simple-java-on

https://leetcode.com/problems/repeated-dna-sequences/discuss/53877/i-did-it-in-10-lines-of-c

https://leetcode.com/problems/repeated-dna-sequences/discuss/53867/clean-java-solution-hashmap-bits-manipulation

LeetCode All in One 題目講解匯總(持續更新中...)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Leetcode：Repeated DNA Sequences詳細題解利用python求一段DNA序列的互補序列 DNA序列對齊問題 DNA序列組裝（貪婪算法） DNA序列局部比對（Smith–Waterman algorithm）選用DNA rm 還是DNA sm DNA sequence open reading frames (ORFs) | DNA序列的開放閱讀框ORF預測利用Needleman–Wunsch算法進行DNA序列全局比對病毒感染檢測 (15分) 人的DNA和病毒DNA均表示成由一些字母組成的字符串序列。然后檢測某種病毒DNA序列是否在患者的DNA序列中出現過，如果出現過，則此人感染了該病毒，否則沒有感染。 DNA甲基化