后綴數組學習筆記——羅穗騫倍增算法代碼

本文轉載自查看原文 2012-02-02 12:18 12733 ACM學習筆記

一開始看“小羅”寫的論文和模板真的雲里霧里，理解起來十分困難，后來結合一個百度貼吧里面的學習筆記總算是把倍增算法的代碼的意思搞懂了，於是后面自己也寫了一份對“小羅”倍增算法代碼的注釋，希望能對各位正在學習后綴數組的同僚帶來一點幫助。

另附上百度貼吧那篇文章的鏈接：http://tieba.baidu.com/f?kz=754580296

int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int cmp(int *r,int a,int b,int l)
{return r[a]==r[b]&&r[a+l]==r[b+l];}  //就像論文所說，由於末尾填了0，所以如果r[a]==r[b]（實際是y[a]==y[b]），說明待合並的兩個長為j的字符串，前面那個一定不包含末尾0，因而后面這個的起始位置至多在0的位置，不會再靠后了，因而不會產生數組越界。
//da函數的參數n代表字符串中字符的個數，這里的n里面是包括人為在字符串末尾添加的那個0的，但論文的圖示上並沒有畫出字符串末尾的0。
//da函數的參數m代表字符串中字符的取值范圍，是基數排序的一個參數，如果原序列都是字母可以直接取128，如果原序列本身都是整數的話，則m可以取比最大的整數大1的值。
void da(int *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    //以下四行代碼是把各個字符（也即長度為1的字符串）進行基數排序，如果不理解為什么這樣可以達到基數排序的效果，不妨自己實際用紙筆模擬一下，我最初也是這樣才理解的。
    for(i=0;i<m;i++) ws[i]=0;
    for(i=0;i<n;i++) ws[x[i]=r[i]]++;  //x[]里面本意是保存各個后綴的rank值的，但是這里並沒有去存儲rank值，因為后續只是涉及x[]的比較工作，因而這一步可以不用存儲真實的rank值，能夠反映相對的大小即可。
    for(i=1;i<m;i++) ws[i]+=ws[i-1];
    for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;  //i之所以從n-1開始循環，是為了保證在當字符串中有相等的字符串時，默認靠前的字符串更小一些。
    //下面這層循環中p代表rank值不用的字符串的數量，如果p達到n，那么各個字符串的大小關系就已經明了了。
    //j代表當前待合並的字符串的長度，每次將兩個長度為j的字符串合並成一個長度為2*j的字符串，當然如果包含字符串末尾具體則數值應另當別論，但思想是一樣的。
    //m同樣代表基數排序的元素的取值范圍
    for(j=1,p=1;p<n;j*=2,m=p)
    {
        //以下兩行代碼實現了對第二關鍵字的排序
        for(p=0,i=n-j;i<n;i++) y[p++]=i;  //結合論文的插圖，我們可以看到位置在第n-j至n的元素的第二關鍵字都為0，因此如果按第二關鍵字排序，必然這些元素都是排在前面的。
        for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;  //結合論文的插圖，我們可以看到，下面一行的第二關鍵字不為0的部分都是根據上面一行的排序結果得到的，且上一行中只有sa[i]>=j的第sa[i]個字符串（這里以及后面指的“第?個字符串”不是按字典序排名來的，是按照首字符在字符串中的位置來的）的rank才會作為下一行的第sa[i]-j個字符串的第二關鍵字，而且顯然按sa[i]的順序rank[sa[i]]是遞增的，因此完成了對剩余的元素的第二關鍵字的排序。
        //第二關鍵字基數排序完成后，y[]里存放的是按第二關鍵字排序的字符串下標
        for(i=0;i<n;i++) wv[i]=x[y[i]];  //這里相當於提取出每個字符串的第一關鍵字（前面說過了x[]是保存rank值的，也就是字符串的第一關鍵字），放到wv[]里面是方便后面的使用
        //以下四行代碼是按第一關鍵字進行的基數排序
        for(i=0;i<m;i++) ws[i]=0;
        for(i=0;i<n;i++) ws[wv[i]]++;
        for(i=1;i<m;i++) ws[i]+=ws[i-1];
        for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];  //i之所以從n-1開始循環，含義同上，同時注意這里是y[i]，因為y[i]里面才存着字符串的下標
        //下面兩行就是計算合並之后的rank值了，而合並之后的rank值應該存在x[]里面，但我們計算的時候又必須用到上一層的rank值，也就是現在x[]里面放的東西，如果我既要從x[]里面拿，又要向x[]里面放，怎么辦？當然是先把x[]的東西放到另外一個數組里面，省得亂了。這里就是用交換指針的方式，高效實現了將x[]的東西“復制”到了y[]中。
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
        x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++; //這里就是用x[]存儲計算出的各字符串rank的值了，記得我們前面說過，計算sa[]值的時候如果字符串相同是默認前面的更小的，但這里計算rank的時候必須將相同的字符串看作有相同的rank，要不然p==n之后就不會再循環啦。
    }
    return;
}

//能夠線性計算height[]的值的關鍵在於h[](height[rank[]])的性質，即h[i]>=h[i-1]-1，下面具體分析一下這個不等式的由來。
//論文里面證明的部分一開始看得我雲里霧里，后來畫了一下終於搞明白了，我們先把要證什么放在這：對於第i個后綴，設j=sa[rank[i] - 1]，也就是說j是i的按排名來的上一個字符串，按定義來i和j的最長公共前綴就是height[rank[i]]，我們現在就是想知道height[rank[i]]至少是多少，而我們要證明的就是至少是height[rank[i-1]]-1。
//好啦，現在開始證吧。
//首先我們不妨設第i-1個字符串（這里以及后面指的“第?個字符串”不是按字典序排名來的，是按照首字符在字符串中的位置來的）按字典序排名來的前面的那個字符串是第k個字符串，注意k不一定是i-2，因為第k個字符串是按字典序排名來的i-1前面那個，並不是指在原字符串中位置在i-1前面的那個第i-2個字符串。
//這時，依據height[]的定義，第k個字符串和第i-1個字符串的公共前綴自然是height[rank[i-1]]，現在先討論一下第k+1個字符串和第i個字符串的關系。
//第一種情況，第k個字符串和第i-1個字符串的首字符不同，那么第k+1個字符串的排名既可能在i的前面，也可能在i的后面，但沒有關系，因為height[rank[i-1]]就是0了呀，那么無論height[rank[i]]是多少都會有height[rank[i]]>=height[rank[i-1]]-1，也就是h[i]>=h[i-1]-1。
//第二種情況，第k個字符串和第i-1個字符串的首字符相同，那么由於第k+1個字符串就是第k個字符串去掉首字符得到的，第i個字符串也是第i-1個字符串去掉首字符得到的，那么顯然第k+1個字符串要排在第i個字符串前面，要么就產生矛盾了。同時，第k個字符串和第i-1個字符串的最長公共前綴是height[rank[i-1]]，那么自然第k+1個字符串和第i個字符串的最長公共前綴就是height[rank[i-1]]-1。
//到此為止，第二種情況的證明還沒有完，我們可以試想一下，對於比第i個字符串的字典序排名更靠前的那些字符串，誰和第i個字符串的相似度最高（這里說的相似度是指最長公共前綴的長度）？顯然是排名緊鄰第i個字符串的那個字符串了呀，即sa[rank[i]-1]。也就是說sa[rank[i]]和sa[rank[i]-1]的最長公共前綴至少是height[rank[i-1]]-1，那么就有height[rank[i]]>=height[rank[i-1]]-1，也即h[i]>=h[i-1]-1。
//證明完這些之后，下面的代碼也就比較容易看懂了。
int rank[maxn],height[maxn];
void calheight(int *r,int *sa,int n)
{
    int i,j,k=0;
    for(i=1;i<=n;i++) rank[sa[i]]=i;  //計算每個字符串的字典序排名
    for(i=0;i<n;height[rank[i++]]=k)  //將計算出來的height[rank[i]]的值，也就是k，賦給height[rank[i]]。i是由0循環到n-1，但實際上height[]計算的順序是由height[rank[0]]計算到height[rank[n-1]]。
    for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);  //上一次的計算結果是k，首先判斷一下如果k是0的話，那么k就不用動了，從首字符開始看第i個字符串和第j個字符串前面有多少是相同的，如果k不為0，按我們前面證明的，最長公共前綴的長度至少是k-1，於是從首字符后面k-1個字符開始檢查起即可。
    return;
}

//最后再說明一點，就是關於da和calheight的調用問題，實際上在“小羅”寫的源程序里面是如下調用的，這樣我們也能清晰的看到da和calheight中的int n不是一個概念，同時height數組的值的有效范圍是height[1]~height[n]其中height[1]=0，原因就是sa[0]實際上就是我們補的那個0，所以sa[1]和sa[0]的最長公共前綴自然是0。
da(r,sa,n+1,128);
calheight(r,sa,n);

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【數據結構】倍增算法 - 后綴數組 OI學習筆記1：倍增算法后綴數組學習筆記倍增LCA學習筆記后綴數組 (Suffix Array) 學習筆記后綴數組：倍增法和DC3的簡單理解倍增算法倍增算法1 「筆記」后綴數組最近公共祖先算法LCA筆記(樹上倍增法)