一個快速、高效的Levenshtein算法實現

本文轉載自查看原文 2012-03-27 09:00 12120 C#/ 算法/ 原創翻譯/ 字符串/ 權重/ 編輯距離/ Levenshtein

Levenshtein算法，用於計算兩個字符串之間的Levenshtein距離。而Levenshtein距離又稱為編輯距離，是指兩個字符串之間，由一個轉換成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符，插入一個字符，刪除一個字符。

概述

Levenshtein距離用來描述兩個字符串之間的差異。我在一個網絡爬蟲程序里面使用這個算法來比較兩個網頁之間的版本，如果網頁的內容有足夠多的變動，我便將它更新到我的數據庫。

原來的算法是創建一個大小為StrLen1*StrLen2的矩陣。如果所有字符串加起來是1000個字符那么長的話，那么這個矩陣就會是1M；如果字符串是10000個字符，那么矩陣就是100M。如果元素都是整數（這里是指數字，Int32）的話，那么矩陣就會是4*100M == 400MB這么大，唉……

現在的算法版本只使用2*StrLen個元素，這使得后面給出的例子成為2*10,000*4 = 80 KB。其結果是，不但內存占用更少，而且速度也變快了！因為這使得內存分配只需要很少的時間來完成。當兩個字符串的長度都是1k左右時，新算法的效率是舊算法的兩倍！

原來的版本將會創建一個矩陣[6+1, 5+1]，而我的新算法將會創建兩個向量[6+1]（黃色元素）。在這兩個算法版本中，字符串的順序是無關緊要、無所謂的，也就是說，它也可以是矩陣[5+1, 6+1]和兩個向量[5+1]。

步驟	說明
1	設置n為字符串s的長度。("GUMBO") 設置m為字符串t的長度。("GAMBOL") 如果n等於0，返回m並退出。如果m等於0，返回n並退出。構造兩個向量v0[m+1] 和v1[m+1]，串聯0..m之間所有的元素。
2	初始化 v0 to 0..m。
3	檢查 s (i from 1 to n) 中的每個字符。
4	檢查 t (j from 1 to m) 中的每個字符
5	如果 s[i] 等於 t[j]，則編輯代價為 0；如果 s[i] 不等於 t[j]，則編輯代價為1。
6	設置單元v1[j]為下面的最小值之一： a、緊鄰該單元上方+1：v1[j-1] + 1 b、緊鄰該單元左側+1：v0[j] + 1 c、該單元對角線上方和左側+cost：v0[j-1] + cost
7	在完成迭代 (3, 4, 5, 6) 之后，v1[m]便是編輯距離的值。

本小節將演示如何計算"GUMBO"和"GAMBOL"兩個字符串的Levenshtein距離。

編輯距離就是矩陣右下角的值，v1[m] == 2。由"GUMBO"變換為"GAMBOL"的過程對於我來說是很只管的，即通過將"A"替換為"U"，並在末尾追加"L"這樣子（實際上替換的過程是由移除和插入兩個操作組合而成的）。

如果您確信你的字符串永遠不會超過2^16（65536）個字符，那么你可以使用ushort來表示而不是int，如果字符串少於2^8個，還可以使用byte。我覺得這個算法用非托管代碼實現的話可能會更快，但我沒有試過。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 用C#實現字符串相似度算法（編輯距離算法 Levenshtein Distance） 13行代碼實現最快速最高效的積分圖像算法。 FoxOne---一個快速高效的BS框架--(4) Levenshtein Distance算法（編輯距離算法）自己實現的一個光流算法 FoxOne---一個快速高效的BS框架--生成增刪改查 FoxOne---一個快速高效的BS框架--WEB控件屬性編輯器素數的高效算法排序算法之快速排序的python實現快速排序算法Java實現