BM模式匹配算法原理（圖解）

本文轉載自查看原文 2013-08-02 18:31 8075 算法與數據結構

BM模式匹配算法原理（圖解）

首先，先簡單說明一下有關BM算法的一些基本概念。

BM算法是一種精確字符串匹配算法（區別於模糊匹配）。

BM算法采用從右向左比較的方法，同時應用到了兩種啟發式規則，即壞字符規則和好后綴規則，來決定向右跳躍的距離。

BM算法的基本流程: 設文本串T，模式串為P。首先將T與P進行左對齊，然后進行從右向左比較，如下圖所示:

若是某趟比較不匹配時，BM算法就采用兩條啟發式規則，即壞字符規則和好后綴規則，來計算模式串向右移動的距離，直到整個匹配過程的結束。

下面，來詳細介紹一下壞字符規則和好后綴規則。

首先，詮釋一下壞字符和好后綴的概念。

請看下圖：

圖中，第一個不匹配的字符（紅色部分）為壞字符，已匹配部分（綠色）為好后綴。

1）壞字符規則（Bad Character）：

在BM算法從右向左掃描的過程中，若發現某個字符x不匹配，則按如下兩種情況討論：

i. 如果字符x在模式P中沒有出現，那么從字符x開始的m個文本顯然不可能與P匹配成功，直接全部跳過該區域即可。

ii. 如果x在模式P中出現，則以該字符進行對齊。

用數學公式表示，設Skip(x)為P右移的距離，m為模式串P的長度，max(x)為字符x在P中最右位置。

例1：

下圖紅色部分，發生了一次不匹配。

計算移動距離Skip(c) = 5 - 3 = 2，則P向右移動2位。

移動后如下圖：

2）好后綴規則（Good Suffix）：

若發現某個字符不匹配的同時，已有部分字符匹配成功，則按如下兩種情況討論：

i. 如果在P中位置t處已匹配部分P'在P中的某位置t'也出現，且位置t'的前一個字符與位置t的前一個字符不相同，則將P右移使t'對應t方才的所在的位置。

ii. 如果在P中任何位置已匹配部分P'都沒有再出現，則找到與P'的后綴P''相同的P的最長前綴x，向右移動P，使x對應方才P''后綴所在的位置。

用數學公式表示，設Shift(j)為P右移的距離，m為模式串P的長度，j 為當前所匹配的字符位置，s為t'與t的距離（以上情況i）或者x與P''的距離（以上情況ii）。

以上過程有點抽象，所以我們繼續圖解。

例2：

下圖中，已匹配部分cab（綠色）在P中再沒出現。

再看下圖，其后綴T'（藍色）與P中前綴P'（紅色）匹配，則將P'移動到T'的位置。

移動后如下圖：

自此，兩個規則講解完畢。

在BM算法匹配的過程中，取SKip(x)與Shift(j)中的較大者作為跳躍的距離。

BM算法預處理時間復雜度為O（m+s），空間復雜度為O(s)，s是與P, T相關的有限字符集長度，搜索階段時間復雜度為O(m·n)。

最好情況下的時間復雜度為O(n/m)，最壞情況下時間復雜度為O(m·n)。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 模式匹配算法【算法】串的模式匹配算法串的模式匹配算法---Horspool 串的模式匹配算法串的模式匹配算法之kmp 快速模式匹配算法（KMP）模式匹配算法-Java實現 KMP模式匹配算法串的模式匹配算法---RK 圖解字符串的朴素模式匹配算法