題目描述:
要求兩字符串有差異的字符個數。例如:
aaaaabaaaaa
aaaaacaabaa
這兩個字符串,最大公共字串長度是5,但它們只有兩個字符不同,函數輸出值應為2。
如果是:
aaabbbcccddd
aaaeeeddd
函數的輸出值應該是6。
比較形象地形容一下,把兩個字符串排成上下兩行,每個字符串都可以在任何位置插入空格以便上下對齊,每個列上至少有一個字符來自這兩個字符串。當對齊程度最高的時候,沒有對上的列的數即為函數輸出值。
aaabbbcccddd
aaaeeeddd
最優對齊狀態是:
aaabbbcccddd
aaaeee ddd
沒有對上的列是6,函數輸出值為6。
如果是:
abcde
acefg
最優對齊狀態是:
abcde
a c efg
沒有對上的列數是4,函數輸出值為4。
問題抽象歸類:(編輯距離問題)
設A和B是2個字符串。要用最少的字符操作將字符串A轉換為字符串B。這里所說的字符操作包括:
(1)刪除一個字符;
(2)插入一個字符;
(3)將一個字符改為另一個字符。
將字符串A變換為字符串B所用的最少字符操作數稱為字符串A到B的編輯距離,記為d(A,B)。試設計一個有效算法,對任給的2個字符串A和B,計算出它們的編輯距離d(A,B)。
要求:
輸入:第1行是字符串A,第2行是字符串B。
輸出:字符串A和B的編輯距離d(A,B)
思路:動態規划
開一個二維數組d[i][j]來記錄a0-ai與b0-bj之間的編輯距離,要遞推時,需要考慮對其中一個字符串的刪除操作、插入操作和替換操作分別花費的開銷,從中找出一個最小的開銷即為所求
具體算法:
首先給定第一行和第一列,然后,每個值d[i,j]這樣計算:d[i][j] = min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+(s1[i] == s2[j]?0:1));
最后一行,最后一列的那個值就是最小編輯距離
