經典算法題每日演練——第五題 字符串相似度


 

      這篇我們看看最長公共子序列的另一個版本,求字符串相似度(編輯距離),我也說過了,這是一個非常實用的算法,在DNA對比,網

頁聚類等方面都有用武之地。

一:概念

     對於兩個字符串A和B,通過基本的增刪改將字符串A改成B,或者將B改成A,在改變的過程中我們使用的最少步驟稱之為“編輯距離”。

比如如下的字符串:我們通過種種操作,痙攣之后編輯距離為3,不知道你看出來了沒有?

二:解析

  可能大家覺得有點復雜,不好理解,我們試着把這個大問題拆分掉,將"字符串 vs 字符串“,分解成”字符 vs 字符串“,再分解

成”字符 vs 字符“。

<1> ”字符“vs”字符“

       這種情況是最簡單的了,比如”A“與”B“的編輯距離很顯然是1。

<2> ”字符”vs"字符串"

       ”A“改成”AB“的編輯距離為1,“A”與“ABA”的編輯距離為2。

<3>“字符串”vs“字符串”

      “ABA”和“BBA”的編輯距離為1,仔細發現我們可以得出如下結論,”ABA“是由23個子序列與”BBA“字符串求的的編輯距離集

合中取出的最小編輯距離,也就是說在這種情況下我們出現了重復計算的問題,我在求子序列”AB“和”BBA"的編輯距離時,我是由

子序列”A“和”BBA“與”B“和”BBA“之間的編輯距離中選出一個最小值,然而序列A和序列B早之前我已經計算過了,這種重復計算

的問題有點像”斐波那契”,正好滿足“動態規划”中的最優子結構和重疊子問題,所以我們決定采用動態規划來解決。

 

三:公式

    跟“最長公共子序列”一樣,我們采用一個二維數組來保存字符串X和Y當前的位置的最小編輯距離。

現有兩個序列X={x1,x2,x3,...xi},Y={y1,y2,y3,....,yi},

設一個C[i,j]: 保存Xi與Yj的當前最小的LD。

①: 當 X= Yi 時,則C[i,j]=C[i-1,j-1];

②:當 X!= Y時, 則C[i,j]=Min{C[i-1,j-1],C[i-1,j],C[i,j-1]};

最終我們的C[i,j]一直保存着最小的LD。

 

四:代碼

 1 using System;
 2 
 3 namespace ConsoleApplication2
 4 {
 5     public class Program
 6     {
 7         static int[,] martix;
 8 
 9         static string str1 = string.Empty;
10 
11         static string str2 = string.Empty;
12 
13         static void Main(string[] args)
14         {
15             while (true)
16             {
17                 str1 = Console.ReadLine();
18 
19                 str2 = Console.ReadLine();
20 
21                 martix = new int[str1.Length + 1, str2.Length + 1];
22 
23                 Console.WriteLine("字符串 {0} 和 {1} 的編輯距離為:{2}\n", str1, str2, LD());
24             }
25         }
26 
27         /// <summary>
28         /// 計算字符串的編輯距離
29         /// </summary>
30         /// <returns></returns>
31         public static int LD()
32         {
33             //初始化邊界值(忽略計算時的邊界情況)
34             for (int i = 0; i <= str1.Length; i++)
35             {
36                 martix[i, 0] = i;
37             }
38 
39             for (int j = 0; j <= str2.Length; j++)
40             {
41                 martix[0, j] = j;
42             }
43 
44             //矩陣的 X 坐標
45             for (int i = 1; i <= str1.Length; i++)
46             {
47                 //矩陣的 Y 坐標
48                 for (int j = 1; j <= str2.Length; j++)
49                 {
50                     //相等情況
51                     if (str1[i - 1] == str2[j - 1])
52                     {
53                         martix[i, j] = martix[i - 1, j - 1];
54                     }
55                     else
56                     {
57                         //取“左前方”,“上方”,“左方“的最小值
58                         var temp1 = Math.Min(martix[i - 1, j], martix[i, j - 1]);
59 
60                         //獲取最小值
61                         var min = Math.Min(temp1, martix[i - 1, j - 1]);
62 
63                         martix[i, j] = min + 1;
64                     }
65                 }
66             }
67 
68             //返回字符串的編輯距離
69             return martix[str1.Length, str2.Length];
70         }
71     }
72 }


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM