1.定義理解
edit distance——指兩個字符串之間,一個轉為另一個的最小編輯次數(方式有:插入/刪除/替換)
若edit distance越小,則字符串之間的相似度越高。
例1:
輸入: word1 = "horse", word2 = "ros" 輸出: 3 解釋: horse -> rorse (將 'h' 替換為 'r') rorse -> rose (刪除 'r') rose -> ros (刪除 'e')
例2:
輸入: word1 = "intention", word2 = "execution"
輸出: 5
解釋:
intention -> inention (刪除 't')
inention -> enention (將 'i' 替換為 'e')
enention -> exention (將 'n' 替換為 'x')
exention -> exection (將 'n' 替換為 'c')
exection -> execution (插入 'u')
2. python實現
# -*- coding: utf8 -*-
def ld(str1, str2):
m, n = len(str1) + 1, len(str2) + 1
# 初始化矩陣
matrix = [[0] * n for i in range(m)]
matrix[0][0] = 0
for i in range(1, m):
matrix[i][0] = matrix[i - 1][0] + 1
for j in range(1, n):
matrix[0][j] = matrix[0][j - 1] + 1
# 動態規划計算ld值
for i in range(1, m):
for j in range(1, n):
if str1[i - 1] == str2[j - 1]:
matrix[i][j] = matrix[i - 1][j - 1]
else:
matrix[i][j] = min(matrix[i - 1][j - 1], matrix[i - 1][j], matrix[i][j - 1]) + 1
return matrix[m - 1][j - 1]
str1 = 'GAATTCAGTTA'
str2 = 'GGATCGA'
print(ld(str1, str2))
