Java數據結構之字符串模式匹配算法---KMP算法

本文轉載自查看原文 2016-11-13 20:22 2382 數據結構與算法

本文主要的思路都是參考http://kb.cnblogs.com/page/176818/

如有冒犯請告知，多謝。

一、KMP算法

　　KMP算法可以在O(n+m)的時間數量級上完成串的模式匹配操作，其基本思想是：每當匹配過程中出現字符串比較不等時，不需回溯指針，而是利用已經得到的“部分匹配”結果將模式向右“滑動”盡可能遠的一段距離，繼續進行比較。顯然我們首先需要獲取一個“部分匹配”的結果，該結果怎么計算呢？

二、算法分析

　　在上一篇中講到了BF算法，當目標字符串與源字符串進行比較時，會逐個字符進行比較一旦發現不匹配就會重新回到頭部進行比較，比較浪費時間，

舉例來說，有一個字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，里面是否包含另一個字符串"ABCDABD"？

首先，字符串"BBC ABCDAB ABCDABCDABDE"的第一個字符與搜索詞"ABCDABD"的第一個字符，進行比較。因為B與A不匹配，所以搜索詞后移一位。

因為B與A不匹配，搜索詞再往后移。

　　就這樣，直到字符串有一個字符，與搜索詞的第一個字符相同為止。

　　接着比較字符串和搜索詞的下一個字符，還是相同。

　　直到字符串有一個字符，與搜索詞對應的字符不相同為止。

　　這時，最自然的反應是，將搜索詞整個后移一位，再從頭逐個比較。這樣做雖然可行，但是效率很差，因為你要把"搜索位置"移到已經比較過的位置，重比一遍。

　　一個基本事實是，當空格與D不匹配時，你其實知道前面六個字符是"ABCDAB"。KMP算法的想法是，設法利用這個已知信息，不要把"搜索位置"移回已經比較過的位置，繼續把它向后移，這樣就提高了效率。

　　怎么做到這一點呢？可以針對搜索詞，算出一張《部分匹配表》（Partial Match Table）。這張表是如何產生的，后面再介紹，這里只要會用就可以了。

　　已知空格與D不匹配時，前面六個字符"ABCDAB"是匹配的。查表可知，最后一個匹配字符B對應的"部分匹配值"為2，因此按照下面的公式算出向后移動的位數：

　　移動位數 = 已匹配的字符數 - 對應的部分匹配值

　　因為 6 - 2 等於4，所以將搜索詞向后移動4位。

　　10.

　　因為空格與Ｃ不匹配，搜索詞還要繼續往后移。這時，已匹配的字符數為2（"AB"），對應的"部分匹配值"為0。所以，移動位數 = 2 - 0，結果為 2，於是將搜索詞向后移2位。

　　11.

　　因為空格與A不匹配，繼續后移一位。

　　12.

　　逐位比較，直到發現C與D不匹配。於是，移動位數 = 6 - 2，繼續將搜索詞向后移動4位。

　　13.

　　逐位比較，直到搜索詞的最后一位，發現完全匹配，於是搜索完成。如果還要繼續搜索（即找出全部匹配），移動位數 = 7 - 0，再將搜索詞向后移動7位，這里就不再重復了。

　　14.下面就是重點講一下這個部分匹配表了，感覺原文作者解析好棒，

三、部分匹配表的生成

　　該部分內容思路，自己在網上找了幾種思路感覺下面的講的最合適:

首先，要了解兩個概念："前綴"和"后綴"。 "前綴"指除了最后一個字符以外，一個字符串的全部頭部組合；"后綴"指除了第一個字符以外，一個字符串的全部尾部組合。

"部分匹配值"就是"前綴"和"后綴"的最長的共有元素的長度。以"ABCDABD"為例，

　　－　"A"的前綴和后綴都為空集，共有元素的長度為0；

　　－　"AB"的前綴為[A]，后綴為[B]，共有元素的長度為0；

　　－　"ABC"的前綴為[A, AB]，后綴為[BC, C]，共有元素的長度0；

　　－　"ABCD"的前綴為[A, AB, ABC]，后綴為[BCD, CD, D]，共有元素的長度為0；

　　－　"ABCDA"的前綴為[A, AB, ABC, ABCD]，后綴為[BCDA, CDA, DA, A]，共有元素為"A"，長度為1；

　　－　"ABCDAB"的前綴為[A, AB, ABC, ABCD, ABCDA]，后綴為[BCDAB, CDAB, DAB, AB, B]，共有元素為"AB"，長度為2；

　　－　"ABCDABD"的前綴為[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后綴為[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度為0。

16.

　　"部分匹配"的實質是，有時候，字符串頭部和尾部會有重復。比如，"ABCDAB"之中有兩個"AB"，那么它的"部分匹配值"就是2（"AB"的長度）。搜索詞移動的時候，第一個"AB"向后移動4位（字符串長度-部分匹配值），就可以來到第二個"AB"的位置。

這里有如下規則進行定義：當j等0時有的地方規定為1，這里規定為-1，其實都一樣，感覺規定為1是最廣泛的。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Java】大話數據結構(8) 串的模式匹配算法（朴素、KMP、改進算法）數據結構（三）串---KMP模式匹配算法之獲取next數組【數據結構】字符串&KMP子串匹配算法字符串模式匹配算法2 - AC算法數據結構實驗四串的模式匹配BF/KMP 字符串模式匹配KMP算法利用KMP算法解決串的模式匹配問題（c++) -- 數據結構字符串模式匹配算法系列（一）：BF算法字符串的模式匹配——Brute-Force算法和KMP算法字符串模式匹配KMP算法中的next數組算法及C++實現