KMP算法

本文轉載自查看原文 2019-07-23 10:01 476 算法-字符串/ 字符串-KMP

一、何謂模式串匹配

模式串匹配，就是給定一個需要處理的文本串（理論上應該很長）和一個需要在文本串中搜索的模式串（理論上長度應該遠小於文本串），查詢在該文本串中，給出的模式串的出現有無、次數、位置等。

模式串匹配的意義在於，如果我是一個平台的管理員，我可以針對一篇文章或者一句話，搜索其中某個特定臟字或者不雅詞匯的出現次數、位置——次數可以幫助我決定采取何種等級對於該用戶的懲罰方式，而位置則可以幫助我給每一個臟詞打上“*”的標記來自動屏蔽這些臟詞。

二、淺析

哦呵呵這個算法的名字比較詭異是因為有三位偉大的科學家共同設計完成……分別是 $\mathcal{Knuth(D.E.Knuth) \& Morris(J.H.Morris)\& Pratt(V.R.Pratt)}Knuth(D.E.Knuth)&Morris(J.H.Morris)&Pratt(V.R.Pratt)$

~~然而我並不知道他們是誰~~

首先要理解，朴素的單模式串匹配大概就是枚舉每一個文本串元素，然后從這一位開始不斷向后比較，每次比較失敗之后都要從頭開始重新比對，大概期望時間復雜度在 $\Theta(n+m)Θ(n+m) 左右，對於一般的弱數據還是闊以跑的了滴。但是其實是可以被卡成 O(nm)O(nm) 的。 emmmmemmmm 並且還是比較容易卡的。$

而

比如我們考慮一組樣例：

模式串：abcab
文本串：abcacababcab

首先，前四位按位匹配成功，遇到第五位不同，而這時，我們選擇將

模式串：   abcab
文本串：abcacababcab

但有時不光只會有單個字符重復：

模式串：abcabc
文本串：abcabdababcabc

當我們發現在第六位失配時，我們可以將模式串的第一二位移動到第四五位，因為它們相同

模式串：   abcabc
文本串：abcabdababcabc

那么現在已經很明了了，

1、我們的失配數組應當建立在模式串意義下，而不是文本串意義下。因為顯然模式串要更加靈活，在失配后換位時，更靈活簡便地處理。

2、如何確定位置呢？

首先我們要明白，基於先決條件

在模式串 $\leq ij≤i 並且滿足 str1(i)=str1(j)str1(i)=str1(j) 並且在 j!=1j!=1 時理應滿足 str1(1)str1(1) 至 str1(j-1)str1(j−1) 分別與 str(i-j+1)str(i−j+1) ~ str1(i-1)str1(i−1) 按位相等$

上述即為移位法則

3、從前綴后綴來解釋

首先解釋前后綴(因為太簡單就不解釋了

給定串：ABCABA
前綴：A,AB,ABC,ABCA,ABCAB,ABCABA
后綴：A,BA,ABA,CABA,BCABA,ABCABA

其實剛才的移位法則就是對於模式串的每個前綴而言，用

三、代碼實現

1、

2、對於如何和文本串比對，很簡單：

 int j;
    j=0;//j可以看做表示當前已經匹配完的模式串的最后一位的位置 
    //如果樓上看不懂，你也可以理解為j表示模式串匹配到第幾位了 
    for(int i=1;i<=la;i++)
       {
          while(j&&b[j+1]!=a[i])j=kmp[j];
          //如果失配 ，那么就不斷向回跳，直到可以繼續匹配 
          if (b[j+1]==a[i]) j++;
          //如果匹配成功，那么對應的模式串位置++ 
          if (j==lb) 
          {
          cout<<i-lb+1<<endl;
          j=kmp[j];
          //繼續匹配 
          }
       }

3、那么我們該如何處理

 j=0;
    for (int i=2;i<=lb;i++)
       {     
       while(j&&b[i]!=b[j+1])
       //此處判斷j是否為0的原因在於，如果回跳到第一個字符就不 用再回跳了
       j=kmp[j];    
        //通過自己匹配自己來得出每一個點的kmp值 
       if(b[j+1]==b[i])j++;    
       kmp[i]=j;
        //i+1失配后應該如何跳 
       }

那么這個“自己匹配自己”該如何理解呢？我們可以這么想：首先，在單次循環只有一個

並且

貼標程：

#include<iostream>
#include<cstring>
#define MAXN 1000010
using namespace std;
int kmp[MAXN];
int la,lb,j; 
char a[MAXN],b[MAXN];
int main()
{
    cin>>a+1;
    cin>>b+1;
    la=strlen(a+1);
    lb=strlen(b+1);
    for (int i=2;i<=lb;i++)
       {     
       while(j&&b[i]!=b[j+1])
        j=kmp[j];    
       if(b[j+1]==b[i])j++;    
        kmp[i]=j;
       }
    j=0;
    for(int i=1;i<=la;i++)
       {
          while(j>0&&b[j+1]!=a[i])
           j=kmp[j];
          if (b[j+1]==a[i]) 
           j++;
          if (j==lb) {cout<<i-lb+1<<endl;j=kmp[j];}
       }

    for (int i=1;i<=lb;i++)
    cout<<kmp[i]<<" ";
    return 0;
}