Java實現Sunday百萬級數據量的字符串快速匹配算法


    背景

      在平時的項目中,幾乎都會用到比較兩個字符串時候相等的問題,通常是用==或者equals()進行,這是在數據相對比較少的情況下是沒問題的,當數據庫中的數據達到幾十萬甚至是上百萬千萬的數據需要從中進行匹配的時候,傳統的方法顯示是不行的,影響匹配的效率,時間也會要很久,用戶體驗很差的,今天就要介紹一種字符串匹配的算法Sunday。接下來就詳細介紹了

     Sunday算法是Daniel M.Sunday於1990年提出的字符串模式匹配。其核心思想是:在匹配過程中,模式串發現不匹配時,算法能跳過盡可能多的字符以進行下一步的匹配,從而提高了匹配效率。相比於另外幾個著名的字符串匹配算法,KMP以及BM算法而言,Sunday算法不僅理解起來比較容易,而且往往能有更好的速度。
   

     首先i,j兩個指針指示的位置(也就是從頭開始匹配),當發現失配的時候就判斷子串的后一位在母串的字符即空格(k標記處)是否在子串中存在?如果存在則將該位置和子串中的該字符對齊,在從頭開始匹配。如果不存在就將子串向后移動,和母串k+1處的字符對齊,再進行匹配。重復上面的操作直到找到,或母串被找完結束。

  

  如上圖,這次比較還是失配,但是k位置的e在子串中出現了,而且第一個就是,最后一個也是,這時候一定要將子串中靠后出現的e和母串中的e對齊如下圖。 

再從i,j開始進行比較。。。。。 
代碼如下

package per.zh.tess4j;

/***
* 字符串快速匹配sunday算法
* sunday與horspool優於strstr、BM、KMP,BM匹配速度相當於KMP的三倍
* (1)strstr():c語言的庫函數
* (2)KMP(Knuth-Morris-Pratt)算法
* (3)BM(Boyer-Moore)算法
* (4)Horspool算法
* (5)Sunday算法
* @author lenovo
* @date 2019年3月22日
* description:
*/
public class SundayTest {


  public static void main(String[] args) {
    String s="abcdebcdbcdegbcde";
    String p="bcdeg";
    Sunday(s, p);

  }


  //注意每次都是從后向前
  public static int contains(char[] str,char ch){
    for(int i=str.length-1;i>=0;i--){
      if(str[i]==ch){
        return i;
      }
    }
    return -1;
  }

   

  /**
  * 匹配字符串
  * @param s 目標字符串
  * @param p 需要匹配的字符串
  */

  public static void Sunday(String s,String p){
    char[] sarray = s.toCharArray();
    char[] parray = p.toCharArray();
    int slen=s.length();
    int plen=p.length();
    int i=0,j=0;
    while(i<=slen-plen+j){//這句話控制索引i,j的范圍
      if(sarray[i]!=parray[j]){//假如主串的sarry[i]與模式串的parray[j]不相等
      if(i==slen-plen+j){
        break;//假如主串的sarry[i]與模式串的parray[j]不相等,並且i=slen-plen+j,說明這已經
        //是在和主串中最后可能相等的字符段比較了,並且不相等,說明后面就再也沒有相等的了,所以
        //跳出循環,結束匹配
      }
      //假如是主串的中間字段與模式串匹配,且結果不匹配
      //則就從模式串的最后面開始,(注意是從后向前)向前遍歷,找出模式串的后一位在對應的母串的字符是否在子串中存在
     int pos=contains(parray, sarray[i+plen-j]);
     if(pos==-1){//表示不存在
       i=i+plen+1-j;
       j=0;
     }else{
      i=i+plen-pos-j;
      j=0;
    }
   }else{//假如主串的sarry[i]與模式串的parray[j]相等,則繼續下面的操作
       if(j==plen-1){//判斷模式串的索引j是不是已經到達模式串的最后位置,
        //j==plen-1證明在主串中已經找到一個模式串的位置,
        //且目前主串尾部的索引為i,主串首部的索引為i-j,打印模式串匹配的第一個位置
        System.out.println("the start pos is "+(i-j)+" the end pos is "+i);
        //然后主串右移一個位置,再和模式串的首字符比較,從而尋找下一個匹配的位置
        i=i-j+1;
        j=0;
      }else{
        //假如模式串的索引j!=plen-1,說明模式串還沒有匹配完,則i++,j++繼續匹配,
        i++;
        j++;
      }
    }
   }
 }


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM