字符串匹配算法 – Sunday算法


假設我們有如下字符串:

A = "LESSONS TEARNED IN SOFTWARE TE";

B = "SOFTWARE";

Sunday算法的大致原理是:

先從左到右逐個字符比較,以我們的字符串為例:

開始的時候,我們讓i = 0, 指向A的第一個字符; j = 0 指向B的第一個字符,分別為"L"和"S",不等;這個時候,Sunday算法要求,找到位於A字串中位於B字符串后面的第一個字符,即下圖中 m所指向的字符"T",在模式字符串B中從后向前查找是否存在"T",

L 

E 

S 

S 

O 

N 

S 

 

T 

E 

A 

R 

N 

E 

D 

 

I 

N 

 

S 

O 

F 

T 

W 

A 

R 

E 

 

T 

E 

i 

             

                                         

S 

                                           

j 

                                                         

 

可以看到下圖中k指向的字符與m指向的字符相等,

L 

E 

S 

S 

O 

N 

S 

 

T 

E 

A 

R 

N 

E 

D 

 

I 

N 

 

S

O 

F 

T 

W 

A 

R 

E 

 

T 

E 

i 

             

                                         

S 

                                           

j 

   

                                                   

這時就將相等的字符對齊,讓j再次指向B字符串的頭一個字符,相應地,將i指向主串對應的字符N

L 

E 

S 

S 

O 

N 

S 

 

T 

E 

A 

R 

N 

E 

D 

 

I 

N 

 

S 

O 

F 

T 

W 

A 

R 

E 

 

T 

E 

         

   

                                         
         

                                 
         

   

                                         

再次比較A[i]和B[j],不等,這時再次尋找主串中在模式串后面的那個字符

L 

E 

S 

S 

O 

N 

S 

 

T 

E 

A 

R 

N 

E 

D 

 

I 

N 

 

S 

O 

F 

T 

W 

A 

R 

E 

 

T 

E 

         

             

                               
         

                                 
         

           

                                 

我們看到,模式串的最后一個字符與m指向的主串字符相等,因此再次移動子串

L 

E 

S 

S 

O 

N 

S 

 

T 

E 

A 

R 

N 

E 

D 

 

I 

N 

 

S 

O 

F 

T 

W 

A 

R 

E 

 

T 

E 

           

           

                               
           

                               
           

                                             

這時,主串i對應的字符是S,j對應的子串字符也是S,i++, j++

L 

E 

S 

S 

O 

N 

S 

 

T 

E 

A 

R 

N 

E 

D 

 

I 

N 

 

S 

O 

F 

T 

W 

A 

R 

E 

 

T 

E 

             

         

                               
           

                               
             

                                           

現在再次不等,m指向字符"D"

L 

E 

S 

S 

O 

N 

S 

 

T 

E 

A 

R 

N 

E 

D 

 

I 

N 

 

S 

O 

F 

T 

W 

A 

R 

E 

 

T 

E 

             

           

                             
           

                               
             

                                           

….

直到找到,或者i到達主串的末尾

C#代碼如下:

static int SundaySearch(string text, string pattern)

        {

            int i = 0;

            int j = 0;

            int pe = pattern.Length - 1;

 

            int tb = i;

            int te = text.Length - 1;

 

            while (i < text.Length && j < pattern.Length)

            {

                if (text[i] == pattern[j])

                {

                    i++;

                    j++;

                }

                else

                {

                    int k = pattern.Length - 1;

 

                    while (k >= 0 && text[pe + 1] != pattern[k])

                    {

                        k--;

                    }

 

                    int gap = pattern.Length - k;

                    i += gap;

                    pe = i + pattern.Length - 1;

                    tb = i;

                    j = 0;

                }

            }

 

            if (i <= text.Length)

            {

                return tb;

            }

 

            return -1;

        }


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM