【字符串匹配】BM(Boyer-Moore) 字符串匹配算法詳解總結(附C++實現代碼)


參考資料:【極客時間.王崢】https://time.geekbang.org/column/article/71525
文中圖片均來自極客時間截圖。

BM算法思想的本質上就是在進行模式匹配的過程中,當模式串與主串的某個字符不匹配的時候,能夠跳過一些肯定不會匹配的情況,將模式串往后多滑動幾位。

BM算法尋找是否能多滑動幾位的原則有兩種,分別是 壞字符規則好后綴規則

壞字符規則:
我們從模式串的末尾往前倒着匹配,當我們發現某個字符無法匹配時,我們把這個無法匹配的字符叫做壞字符(主串中的字符)。此時記錄下壞字符在模式串中的位置si,然后拿壞字符在模式串中查找,如果模式串中並不存在這個字符,那么可以將模式串直接向后滑動m位,如果壞字符在模式串中存在,則記錄下其位置xi,那么模式串向后移動的位數就是si-xi,(可以在確保si>xi,執行減法,不會出現向前移動的情況)。如果壞字符在模式串中多次出現,那我們在計算xi的時候,選擇最靠后的那個,這樣不會因為讓模式串滑動過多,導致本來可能匹配的情況被略過。

好后綴規則:
在我們反向匹配模式串時,遇到不匹配時,記錄下當前位置j位壞字符位置。把已經匹配的字符串叫做好后綴,記作{u}。我們拿它在模式串中查找,如果找到了另一個跟{u}相匹配的字串{u*}, 那么我們就將模式串滑動到字串{u*}與主串{u}對齊的位置。如下圖所示:
找到匹配的字串時的操作

如果在模式串中找不到另一個等於{u}的子串,我們就直接將模式串滑動到主串中{u}的后面,因為之前的任何一次往后滑動,都沒有匹配主串中{u}的情況。但是這種滑動做法有點太過頭了,可以看下面的例子,如果直接滑動到好后綴的后面,可能會錯過模式串與主串可以匹配的情況。如下圖:

當模式串滑動到前綴與主串中{u}的后綴有部分重合的時候,並且重回部分相等的時候,就可能會存在完全匹配的情況。所以針對這種情況我們不僅要看好后綴在模式串中,是否有另一個匹配的字串,我們還要考察好后綴的后綴字串是否存在跟模式串的前綴字串匹配的情況。如下圖所示:

最后總結如何確定模式串向后滑動的位數,我們可以分別計算好后綴和壞字符往后滑動的位數,然后取兩個數中最大的。

BM算法性能分析
BM算法的內存消耗:整個算法使用了三個額外數組,其中bc數組的大小和字符集大小有關,suffix數組和prefix數組的大小和模式串長度m有關。
如果我們處理字符集很大的模式匹配問題,bc數組對內存消耗會比較多。好后綴規則和壞字符規則是獨立的,如果對內存要求苛刻,那么可以只使用好后綴規則。不過效率也會下降一些。
BM 算法的時間復雜度分析很復雜,原文中作者給出了兩篇參考文章。我也沒看,(捂臉)
A new proof of the linearity of the Boyer-Moore string searching algorithm
Tight bounds on the complexity of the Boyer-Moore string matching algorithm

下面給出了BM算法的C++實現

#include <cstdio>
#include <cstdlib>
#include <iostream>
using namespace std;
const int size = 256;
//將模式串字符使用hash表示
void generateBC(char b[], int m, int bc[]){
//b是模式串, m是模式串的長度, bc是散列表
//bc的下標是字符集的ASCII碼,數組值是每個字符在模式串中出現的位置。
for(int i=0; i<size; i++){
bc[i]=-1;
}
for(int i=0; i<m; i++){
int ascii = (int)b[i];
bc[ascii] = i;
}
}
/*
求suffix數組和prefix數組
suffix數組的下標K表示后綴字串的長度,數組值對應存儲的是,在模式串中跟好后綴{u}相匹配的子串{u*}
的起始下標值。
prefix數組是布爾型。來記錄模式串的后綴字串是否能匹配模式串的前綴子串。

*/
void generateGS(char b[], int m, int suffix[], bool prefix[]){
for(int i=0; i<m;i++){
suffix[i] = -1;
prefix[i] = false;
}
for(int i=0; i<m-1; ++i){
int j = i;
int k =0; //公共后綴字串長度
while(j >=0 && b[j] == b[m-1-k]){
//與b[0, m-1]求公共后綴字串
--j;
++k;
suffix[k] = j+1; //j+1表示公共后綴字串在b[0,i]中的起始下標
}
if(j == -1) prefix[k] = true;//如果公共后綴字串也是模式串的前綴字串

}
}

//j表示壞字符對應的模式串中的字符下標,m是模式串的長度
//計算在好后綴規則下模式串向后移動的個數 
int moveByGS(int j, int m, int suffix[], bool prefix[]){
int k= m-1-j; //好后綴的長度
if(suffix[k] != -1) return j - suffix[k] +1;
for(int r = j+2; r<= m-1; ++r){
if(prefix[m-r] == true){
return r;
}
}
return m;
}

//BM算法
int BM(char a[], int n, char b[], int m){
int suffix[m];
bool prefix[m];

int bc[size];//bc記錄模式串中每個字符最后出現的位置

generateBC(b,m,bc); //構建字符串hash表
generateGS(b,m, suffix,prefix); //計算好后綴和好前綴數組

int i=0; //表示主串與模式串對齊的第一個字符
while(i<=n-m){
int j;
for(j=m-1; j>=0; j--){ //模式串從后往前匹配
if(a[i+j]!= b[j]) break; //壞字符對應的模式串下標是j,即i+j 位置是壞字符的位置si        
}
if(j < 0){
return i; //匹配成功,返回主串與模式串第一個匹配的字符的位置
}
//這里x等同於將模式串往后滑動j-bc[(int)a[i+j]]位
//bc[(int)a[i+j]]表示主串中壞字符在模式串中出現的位置xi
int x = i + (j - bc[(int)a[i+j]]); 

int y =0;
if(j < m-1){//如果有好后綴的話,計算在此情況下向后移動的位數y
y = moveByGS(j, m, suffix, prefix);
}
i = i + max(x, y); //i更新位可以后移較多的位置

}
return -1;
}

int main(){
char a[] = "aaaabaaba";
char b[] = "aaaa";
int i = BM(a,9,b,2);
printf("%d\n", i);
return 0;
} 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM