什么是Kmp算法？

本文轉載自查看原文 2018-06-24 23:59 5180 算法

1. 前幾天做了一道題，做錯了，遂良心發現，我覺得你從頭看到尾，差不多可以明白KMP算法的思想

2. 暴力匹配算法

假設現在我們面臨這樣一個問題：有一個文本串S，和一個模式串P，現在要查找P在S中的位置，怎么查找呢？

如果用暴力匹配的思路，並假設現在文本串S匹配到 i 位置，模式串P匹配到 j 位置，則有：

如果當前字符匹配成功（即S[i] == P[j]），則i++，j++，繼續匹配下一個字符；
如果失配（即S[i]! = P[j]），令i = i - (j - 1)，j = 0。相當於每次匹配失敗時，i 回溯，j 被置為0。

理清楚了暴力匹配算法的流程及內在的邏輯，咱們可以寫出暴力匹配的代碼，如下：

[cpp]view plaincopy
                
            
print?
 int ViolentMatch(char* s, char* p)  
 {  
     int sLen = strlen(s);  
     int pLen = strlen(p);  
   
     int i = 0;  
     int j = 0;  
     while (i < sLen && j < pLen)  
     {  
         if (s[i] == p[j])  
         {  
             //①如果當前字符匹配成功（即S[i] == P[j]），則i++，j++      
             i++;  
             j++;  
         }  
         else  
         {  
             //②如果失配（即S[i]! = P[j]），令i = i - (j - 1)，j = 0      
             i = i - j + 1;  
             j = 0;  
         }  
     }  
     //匹配成功，返回模式串p在文本串s中的位置，否則返回-1  
     if (j == pLen)  
         return i - j;  
     else  
         return -1;  
 }  

舉個例子，如果給定文本串S“BBC ABCDAB ABCDABCDABDE”，和模式串P“ABCDABD”，現在要拿模式串P去跟文本串S匹配，整個過程如下所示：

1. S[0]為B，P[0]為A，不匹配，執行第②條指令：“如果失配（即S[i]! = P[j]），令i = i - (j - 1)，j = 0”，S[1]跟P[0]匹配，相當於模式串要往右移動一位（i=1，j=0）

2. S[1]跟P[0]還是不匹配，繼續執行第②條指令：“如果失配（即S[i]! = P[j]），令i = i - (j - 1)，j = 0”，S[2]跟P[0]匹配（i=2，j=0），從而模式串不斷的向右移動一位（不斷的執行“令i = i - (j - 1)，j = 0”，i從2變到4，j一直為0）

3. 直到S[4]跟P[0]匹配成功（i=4，j=0），此時按照上面的暴力匹配算法的思路，轉而執行第①條指令：“如果當前字符匹配成功（即S[i] == P[j]），則i++，j++”，可得S[i]為S[5]，P[j]為P[1]，即接下來S[5]跟P[1]匹配（i=5，j=1）

4. S[5]跟P[1]匹配成功，繼續執行第①條指令：“如果當前字符匹配成功（即S[i] == P[j]），則i++，j++”，得到S[6]跟P[2]匹配（i=6，j=2），如此進行下去

5. 直到S[10]為空格字符，P[6]為字符D（i=10，j=6），因為不匹配，重新執行第②條指令：“如果失配（即S[i]! = P[j]），令i = i - (j - 1)，j = 0”，相當於S[5]跟P[0]匹配（i=5，j=0）

6. 至此，我們可以看到，如果按照暴力匹配算法的思路，盡管之前文本串和模式串已經分別匹配到了S[9]、P[5]，但因為S[10]跟P[6]不匹配，所以文本串回溯到S[5]，模式串回溯到P[0]，從而讓S[5]跟P[0]匹配。

而S[5]肯定跟P[0]失配。為什么呢？因為在之前第4步匹配中，我們已經得知S[5] = P[1] = B，而P[0] = A，即P[1] != P[0]，故S[5]必定不等於P[0]，所以回溯過去必然會導致失配。那有沒有一種算法，讓i 不往回退，只需要移動j 即可呢？

答案是肯定的。這種算法就是本文的主旨KMP算法，它利用之前已經部分匹配這個有效信息，保持i 不回溯，通過修改j 的位置，讓模式串盡量地移動到有效的位置。

3. KMP算法

3.1 定義

Knuth-Morris-Pratt 字符串查找算法，簡稱為 “KMP算法”，常用於在一個文本串S內查找一個模式串P 的出現位置，這個算法由Donald Knuth、Vaughan Pratt、James H. Morris三人於1977年聯合發表，故取這3人的姓氏命名此算法。

下面先直接給出KMP的算法流程（如果感到一點點不適，沒關系，堅持下，稍后會有具體步驟及解釋，越往后看越會柳暗花明☺）：

假設現在文本串S匹配到 i 位置，模式串P匹配到 j 位置
- 如果j = -1，或者當前字符匹配成功（即S[i] == P[j]），都令i++，j++，繼續匹配下一個字符；
- 如果j != -1，且當前字符匹配失敗（即S[i] != P[j]），則令 i 不變，j = next[j]。此舉意味着失配時，模式串P相對於文本串S向右移動了j - next [j] 位。
  - 換言之，當匹配失敗時，模式串向右移動的位數為：失配字符所在位置 - 失配字符對應的next 值（next 數組的求解會在下文的3.3.3節中詳細闡述），即移動的實際位數為：j - next[j]，且此值大於等於1。

很快，你也會意識到next 數組各值的含義：代表當前字符之前的字符串中，有多大長度的相同前綴后綴。例如如果next [j] = k，代表j 之前的字符串中有最大長度為 k 的相同前綴后綴。

此也意味着在某個字符失配時，該字符對應的next 值會告訴你下一步匹配中，模式串應該跳到哪個位置（跳到next [j] 的位置）。如果next [j] 等於0或-1，則跳到模式串的開頭字符，若next [j] = k 且 k > 0，代表下次匹配跳到j 之前的某個字符，而不是跳到開頭，且具體跳過了k 個字符。

轉換成代碼表示，則是：

[cpp]view plaincopy
                
            
print?
 int KmpSearch(char* s, char* p)  
 {  
     int i = 0;  
     int j = 0;  
     int sLen = strlen(s);  
     int pLen = strlen(p);  
     while (i < sLen && j < pLen)  
     {  
         //①如果j = -1，或者當前字符匹配成功（即S[i] == P[j]），都令i++，j++      
         if (j == -1 || s[i] == p[j])  
         {  
             i++;  
             j++;  
         }  
         else  
         {  
             //②如果j != -1，且當前字符匹配失敗（即S[i] != P[j]），則令 i 不變，j = next[j]      
             //next[j]即為j所對應的next值        
             j = next[j];  
         }  
     }  
     if (j == pLen)  
         return i - j;  
     else  
         return -1;  
 }  

繼續拿之前的例子來說，當S[10]跟P[6]匹配失敗時，KMP不是跟暴力匹配那樣簡單的把模式串右移一位，而是執行第②條指令：“如果j != -1，且當前字符匹配失敗（即S[i] != P[j]），則令 i 不變，j = next[j]”，即j 從6變到2（后面我們將求得P[6]，即字符D對應的next 值為2），所以相當於模式串向右移動的位數為j - next[j]（j - next[j] = 6-2 = 4）。

向右移動4位后，S[10]跟P[2]繼續匹配。為什么要向右移動4位呢，因為移動4位后，模式串中又有個“AB”可以繼續跟S[8]S[9]對應着，從而不用讓i 回溯。相當於在除去字符D的模式串子串中尋找相同的前綴和后綴，然后根據前綴后綴求出next 數組，最后基於next 數組進行匹配（不關心next 數組是怎么求來的，只想看匹配過程是咋樣的，可直接跳到下文 3.3.4節）。

3.2 步驟

①尋找前綴后綴最長公共元素長度
- 對於P = p0 p1 ...pj-1 pj，尋找模式串P中長度最大且相等的前綴和后綴。如果存在p0 p1 ...pk-1 pk = pj- k pj-k+1...pj-1 pj，那么在包含pj的模式串中有最大長度為k+1的相同前綴后綴。舉個例子，如果給定的模式串為“abab”，那么它的各個子串的前綴后綴的公共元素的最大長度如下表格所示：

比如對於字符串aba來說，它有長度為1的相同前綴后綴a；而對於字符串abab來說，它有長度為2的相同前綴后綴ab（相同前綴后綴的長度為k + 1，k + 1 = 2）。

②求next數組
- next 數組考慮的是除當前字符外的最長相同前綴后綴，所以通過第①步驟求得各個前綴后綴的公共元素的最大長度后，只要稍作變形即可：將第①步驟中求得的值整體右移一位，然后初值賦為-1，如下表格所示：

比如對於aba來說，第3個字符a之前的字符串ab中有長度為0的相同前綴后綴，所以第3個字符a對應的next值為0；而對於abab來說，第4個字符b之前的字符串aba中有長度為1的相同前綴后綴a，所以第4個字符b對應的next值為1（相同前綴后綴的長度為k，k = 1）。

③根據next數組進行匹配
- 匹配失配，j = next [j]，模式串向右移動的位數為：j - next[j]。換言之，當模式串的后綴pj-k pj-k+1, ..., pj-1 跟文本串si-k si-k+1, ..., si-1匹配成功，但pj 跟si匹配失敗時，因為next[j] = k，相當於在不包含pj的模式串中有最大長度為k 的相同前綴后綴，即p0 p1 ...pk-1 = pj-k pj-k+1...pj-1，故令j = next[j]，從而讓模式串右移j - next[j] 位，使得模式串的前綴p0 p1, ..., pk-1對應着文本串 si-k si-k+1, ..., si-1，而后讓pk 跟si 繼續匹配。如下圖所示：

綜上，KMP的next 數組相當於告訴我們：當模式串中的某個字符跟文本串中的某個字符匹配失配時，模式串下一步應該跳到哪個位置。如模式串中在j 處的字符跟文本串在i 處的字符匹配失配時，下一步用next [j] 處的字符繼續跟文本串i 處的字符匹配，相當於模式串向右移動 j - next[j] 位。

接下來，分別具體解釋上述3個步驟。

3.3 解釋

3.3.1 尋找最長前綴后綴

如果給定的模式串是：“ABCDABD”，從左至右遍歷整個模式串，其各個子串的前綴后綴分別如下表格所示：

也就是說，原模式串子串對應的各個前綴后綴的公共元素的最大長度表為（ 下簡稱《最大長度表》）：

3.3.2 基於《最大長度表》匹配

因為模式串中首尾可能會有重復的字符，故可得出下述結論：

失配時，模式串向右移動的位數為：已匹配字符數 - 失配字符的上一位字符所對應的最大長度值

下面，咱們就結合之前的《最大長度表》和上述結論，進行字符串的匹配。如果給定文本串“BBC ABCDAB ABCDABCDABDE”，和模式串“ABCDABD”，現在要拿模式串去跟文本串匹配，如下圖所示：

1. 因為模式串中的字符A跟文本串中的字符B、B、C、空格一開始就不匹配，所以不必考慮結論，直接將模式串不斷的右移一位即可，直到模式串中的字符A跟文本串的第5個字符A匹配成功：

2. 繼續往后匹配，當模式串最后一個字符D跟文本串匹配時失配，顯而易見，模式串需要向右移動。但向右移動多少位呢？因為此時已經匹配的字符數為6個（ABCDAB），然后根據《最大長度表》可得失配字符D的上一位字符B對應的長度值為2，所以根據之前的結論，可知需要向右移動6 - 2 = 4 位。

3. 模式串向右移動4位后，發現C處再度失配，因為此時已經匹配了2個字符（AB），且上一位字符B對應的最大長度值為0，所以向右移動：2 - 0 =2 位。

4. A與空格失配，向右移動1 位。

5. 繼續比較，發現D與C 失配，故向右移動的位數為：已匹配的字符數6減去上一位字符B對應的最大長度2，即向右移動6 - 2 = 4 位。

6. 經歷第5步后，發現匹配成功，過程結束。

通過上述匹配過程可以看出，問題的關鍵就是尋找模式串中最大長度的相同前綴和后綴，找到了模式串中每個字符之前的前綴和后綴公共部分的最大長度后，便可基於此匹配。而這個最大長度便正是next 數組要表達的含義。

3.3.3 根據《最大長度表》求next 數組

由上文，我們已經知道，字符串“ABCDABD”各個前綴后綴的最大公共元素長度分別為：

而且，根據這個表可以得出下述結論

失配時，模式串向右移動的位數為：已匹配字符數 - 失配字符的上一位字符所對應的最大長度值

上文利用這個表和結論進行匹配時，我們發現，當匹配到一個字符失配時，其實沒必要考慮當前失配的字符，更何況我們每次失配時，都是看的失配字符的上一位字符對應的最大長度值。如此，便引出了next 數組。

給定字符串“ABCDABD”，可求得它的next 數組如下：

把next 數組跟之前求得的最大長度表對比后，不難發現，next 數組相當於“最大長度值” 整體向右移動一位，然后初始值賦為-1。意識到了這一點，你會驚呼原來next 數組的求解竟然如此簡單：就是找最大對稱長度的前綴后綴，然后整體右移一位，初值賦為-1（當然，你也可以直接計算某個字符對應的next值，就是看這個字符之前的字符串中有多大長度的相同前綴后綴）。

換言之，對於給定的模式串：ABCDABD，它的最大長度表及next 數組分別如下：

根據最大長度表求出了next 數組后，從而有

失配時，模式串向右移動的位數為：失配字符所在位置 - 失配字符對應的next 值

而后，你會發現，無論是基於《最大長度表》的匹配，還是基於next 數組的匹配，兩者得出來的向右移動的位數是一樣的。為什么呢？因為：

根據《最大長度表》，失配時，模式串向右移動的位數 = 已經匹配的字符數 - 失配字符的上一位字符的最大長度值
而根據《next 數組》，失配時，模式串向右移動的位數 = 失配字符的位置 - 失配字符對應的next 值
- 其中，從0開始計數時，失配字符的位置 = 已經匹配的字符數（失配字符不計數），而失配字符對應的next 值 = 失配字符的上一位字符的最大長度值，兩相比較，結果必然完全一致。

所以，你可以把《最大長度表》看做是next 數組的雛形，甚至就把它當做next 數組也是可以的，區別不過是怎么用的問題。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 kmp算法 KMP算法什么是KMP算法？KMP算法推導 BF算法和KMP算法 KMP算法和bfprt算法很詳盡KMP算法（厲害）淺談 KMP 算法 KMP算法的代碼實現 KMP算法的理解 KMP算法的優化與詳解