Python如何計算編輯距離？

本文轉載自查看原文 2020-05-31 21:47 3343 算法/ python

算法原理

在計算文本的相似性時，經常會用到編輯距離。編輯距離，又稱Levenshtein距離，是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數。通常來說，編輯距離越小，兩個文本的相似性越大。這里的編輯操作主要包括三種：

下面通過示例來看一下。

將字符串batyu變為beauty，編輯距離是多少呢？這需要經過如下步驟：

1、batyu變為beatyu（插入字符e）

2、beatyu變為beaty（刪除字符u）

3、beaty變為beauty（插入字符u）

所以編輯距離為3。

那么，如何用Python計算編輯距離呢？我們可以從較為簡單的情況進行分析。

很明顯，上述算法的思想即為動態規划。

求長度為m和n的字符串的編輯距離，首先定義函數——edit(i, j)，它表示第一個長度為i的字符串與第二個長度為j的字符串之間的編輯距離。動態規划表達式可以寫為：

if i == 0 且 j == 0，edit(i, j) = 0
if （i == 0 且 j > 0 ）或者（i > 0 且j == 0），edit(i, j) = i + j
if i ≥ 1 且 j ≥ 1 ，edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + d(i, j) }，當第一個字符串的第i個字符不等於第二個字符串的第j個字符時，d(i, j) = 1；否則，d(i, j) = 0。

最終的編輯距離即為edit(m,n)。上述示例的edit矩陣可以表示如下：

Python代碼實現

Talk is cheap. Show me the code. Python代碼也是極其簡潔的，這也是動態規划的魅力：

擴展

那么，Python功能這么強大，有沒有計算編輯距離的包呢？

答案是肯定的，Python中的Levenshtein包可以用來計算編輯距離，安裝方法很簡單，直接安裝即可：

pip install python-Levenshtein

這樣我們就可以引入包直接計算編輯距離了：

有同學可能想計算漢字之間的編輯距離，如下：

得到的結果是3而不是1。這是因為在字符串編碼為utf-8時，一個漢字占用3個字節。改為unicode編碼即可得到1，即：

那么，Levenshtein包中還有沒有其它計算距離的方法呢？

這個包有很多計算距離的方法，包括如下：

hamming(str1, str2)，計算長度相等的字符串str1和str2的漢明距離，即為兩個等長字串之間對應位置上不同字符的個數。
ratio(str1, str2)，計算萊文斯坦比。計算公式 r = (sum – ldist) / sum, 其中sum是指str1 和 str2 字串的長度總和，ldist是類編輯距離。注意這里是類編輯距離，在類編輯距離中刪除、插入依然+1，但是替換+2。
jaro(str1, str2)，jaro_winkler(str1, str2)等等。

總結

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 最小編輯距離算法從編輯距離、BK樹到文本糾錯 leetcode 編輯距離(動態規划) 字符串編輯距離動態規划之編輯距離問題字符串編輯距離（Levenshtein距離）算法算法之動態規划——編輯距離問題 - > 動規講解基礎講解六——編輯距離問題 [LeetCode] 161. One Edit Distance 一個編輯距離分詞之最短編輯距離算法實現（包括中文）