后綴數組詳解

本文轉載自查看原文 2019-03-12 22:16 868 字符串/ 學習筆記/ OI/ 數據結構

基本概念

什么是后綴

假如你有一個字符串如

"gzyorz"

它的后綴是

"gzyorz"，"zyorz"，"yorz"，"orz"，"rz"，"z"

很簡單。
用\(suff[i]\)表示以第\(i\)位為開頭的后綴。

大小比較

給兩個字符串，讓你比較大小，從頭開始，一位一位的比，如果不相等，就比較兩個字符的那個字典序比較大，如果一個串已經到結尾了，它們還是相等，那長的那個大。
比如

"aab"和"aac"
第一位'a'='a'，第二位'a'='a',第三位'b'<'c'，所以"aab"<"aac"。
或
"aab"和"aabc"
第一二三位均相等，但"aabc"比"aab"長，所以"aab"<"aabc"。

后綴數組和名次數組

拿網上一張十分直觀的圖

后綴數組\(sa[i]\)：表示所有后綴在排完序后，排名為\(i\)的后綴在原串中的位置。
名次數組\(rank[i]\)：表示所有后綴在排序完后，原字符串中第\(i\)名現在的排名。
總結一下
sa表示“排名第幾的是誰”，rank表示"排名第幾"
這里sa存的是排名第i后綴的開頭的位置
這兩者是可以在\(O(n)\)的時間內互推出來的。

rnak[sa[i]] = i;
sa[rank[i]] = i;

顯然，\(x\)的排名是\(y\)，那排名是\(y\)的就是\(x\)

求后綴數組

構造sa數組的方法一般有兩種：

倍增算法：\(O(nlogn)\)
DC3算法：\(O(n)\)
這里只講一下倍增算法。

對於一個后綴\(suff[i]\)，直接求\(rank\)比較困難，我們用倍增的思想，成倍的兩兩合並出所有的后綴，用第\(k-1\)輪的\(rank\)推出第\(k\)輪的\(rank\)。
我們第\(k\)輪的\(s[i...i+2^k]\)可以看做是\(s[i...i+2^{k-1}]\)和\(s[i+2^{k-1}+1...2^k]\)拼起來的，而這兩個長度為\(2^{k-1}\)的字符串是上一輪處理出來的，我們知道他們的\(rank\)，這就相當於兩組數字(關鍵字)比較大小，這樣，我們就獲得了第\(k\)輪\(s[i...i+2^k]\)的\(rank\)。
如果\(i\)位置后沒有\(2^{k-1}\)個字符，就是\(s[i...2^{k-1}]\)不能由上面兩個字符串拼起來，表明\(i+2{k-1}\)大於等於\(len\)，也就是\(suff[i]\)這個字符串，直接補0。

所以，我們得到\("aabaaaab"\)的\(rank\)的過程大概就是這樣。

怎么比較大小呢
舉個栗子：
未命名.bmp
如圖，我們要比較\(str1\)和\(str2\)的大小，顯然我們只需要比較\(f1\)和\(f2\)的大小(第一關鍵字)，\(g1\)和\(g2\)的大小就可以判斷\(str1\)和\(str2\)的大小(第二關鍵字)。
顯然這樣做的復雜度是\(O(log(len))\)

基數排序

我們每次把子串合並后都要排一次序，如果直接上快排的話，\(O(len log^2 (len))\)，顯然不行啊。

這就用到了\(O(len)\)的基數排序。
所謂基數排序，就是從最低位開始，先按個位排，再排十位，再排百位……
這里給張圖感性理解一下，建議還是深度的學習一下，對下文的代碼也好理解。

代碼

代碼還是很有必要解釋一下的
如果學了基數排序的話還是基本很好理解的。

int fir[N], sce[N], t[N], sa[N];
//fir第一關鍵字（rank）
//sec第二關鍵字（sa）
//排名為i的串出現了多少次（桶）

for (int i = 1; i <= len; ++i) ++t[fir[i] = s[i]];		//把每個字符放入桶內 
for (int i = 1; i <= num; ++i) t[i] += t[i - 1];		//前綴和一下求當前字符的排名
for (int i = len; i >= 1; --i) sa[t[fir[i]]--] = i;	
	/*	這里枚舉到i位置時，s[i] (fir[i])的排名是t[fir[i]]，那排名為t[fir[i]]的字符串開頭的位置顯然為i 
		->  sa[rank[i]] = i
	*/

就是第一輪在沒有第二關鍵字的時候把所有的字母排一遍序。
利用前綴和可以快速的定位出每個位置應有的排名。
這里稍微模擬一下應該很好理解。

for (int i = len - k + 1; i <= n; ++i) sec[++cnt] = i;		
for (int i = 1; i <= len; ++i) if (sa[i] > k) sec[++cnt] = sa[i] - k;

第一行：因為這一部分的長度小於\(k\)，所以沒有第二關鍵字，直接排到最前面好了，\(sec[i]\)記錄的是排名第\(cnt\)的后綴的開頭在\(i\)位置。

第二行：看排名為\(i\)的后綴的位置是否大於\(k\)，位置要大於\(k\)，當前找的字符串是由兩個長度為\(k\)的子串拼起來的，如果\(i\)位置小於\(k\)，這個后綴就不能作為第二關鍵字了。
然后直接把上一輪的\(sa\)拿過來用就可以了，同時減去一個數后相對排名不變，一定要時刻記住\(sec\)存的是排名為\(cnt\)的后綴的位置，我們知道第二關鍵字排名第\(i\)的后綴的位置，這樣就得到了以第二關鍵字的排名。

for (int i = 1; i <= num; ++i) t[i] = 0;
for (int i = 1; i <= len; ++i) ++t[fir[i]];
for (int i = 1; i <= num; ++i) t[i] += t[i - 1];
for (int i = len; i >= 1; --i) sa[t[fir[sec[i]]]--] = sec[i], sec[i] = 0;

這個是把第一二關鍵字總的排名弄出來。
\(fir\)數組中存的是上次關鍵字的\(rank\)，即第一關鍵字，對\(fir\)排序就是對第一關鍵字排序，那第二關鍵字呢。
因為第一關鍵字可能對應很多第二關鍵字(因為有的串可能能是后綴，有的是長度為\(2^{k-1}\)的串，可能相同)，我們要在第一關鍵字相同的情況下排第二關鍵字，因為第二關鍵字已經排好，越大的肯定越靠后。
比如\(sec[1]=3\),\(sec[2]=4\)那4位置開始的后綴要比3位置開始的后綴靠后
\(sec[i]\)是第二關鍵字排名為\(i\)的后綴（sa數組定義）。
\(fir[sec[i]]\)就是排名為\(i\)的第二關鍵字對應的第一關鍵字。
\(t[fir[sec[i]]]\)就表示當第一關鍵字相同時，第二關鍵字較大的這個后綴的排名是多少。
理同上面的基數排序，\(sa[t[fir[sec[i]]]--] = sec[i]\)。

swap(fir, sec);
fir[sa[1]] = 1, cnt = 1;
for (int i = 2; i <= n; ++i) 
	fir[sa[i]] = (sec[sa[i]] == sec[sa[i - 1]] && sec[sa[i] + k] == sec[sa[i - 1] + k]) ? cnt : ++cnt;
if (cnt == len) break;
num = cnt;

這里，在下面更新\(fir\)的時候\(sec\)是沒有用的，所以swap一下直接把\(fir\)的值賦值給\(sec\)，這時\(sec\)存的就是\(fir\)了。
\(sa[1]\)的排名一定是1，然后定義一個值，表示串的"值"。
如果兩個字符串的兩個關鍵字完全相等，則新的"值"也相等。
如果所有的值都不一樣，就說明排好序了。
關鍵字的取值范圍就發生了變化，變為了\(cnt\)。

完整代碼：

#include <bits/stdc++.h>
using namespace std;
const int N = 1e6 + 10;
int num = 122, len;
int fir[N], sec[N], t[N], sa[N];
char s[N];
inline void SA() {
    for (int i = 1; i <= num; ++i) t[i] = 0; 
	for (int i = 1; i <= len; ++i) ++t[fir[i] = s[i]];
	for (int i = 1; i <= num; ++i) t[i] += t[i - 1];
	for (int i = len; i >= 1; --i) sa[t[fir[i]]--] = i;	
	for (int k = 1; k <= len; k <<= 1) {
		int cnt = 0;
		for (int i = len - k + 1; i <= len; ++i) sec[++cnt] = i;
		for (int i = 1; i <= len; ++i) if (sa[i] > k) sec[++cnt] = sa[i] - k;
		for (int i = 1; i <= num; ++i) t[i] = 0;
		for (int i = 1; i <= len; ++i) ++t[fir[i]];
		for (int i = 1; i <= num; ++i) t[i] += t[i - 1];
		for (int i = len; i >= 1; --i) sa[t[fir[sec[i]]]--] = sec[i], sec[i] = 0;
		swap(fir, sec);
		fir[sa[1]] = 1, cnt = 1;
		for (int i = 2; i <= len; ++i) 
			fir[sa[i]] = (sec[sa[i]] == sec[sa[i - 1]] && sec[sa[i] + k] == sec[sa[i - 1] + k]) ? cnt : ++cnt;
		if (cnt == len) break;
		num = cnt;
	}
}
int main() {
	scanf("%s", s + 1);
	len = strlen(s + 1);
	SA();
	for (int i = 1; i <= len; ++i) printf("%d ", sa[i]);
	return 0;
}

最長公共前綴——LCP

定義

height[i]：表示\(suff[sa[i]]\)和\(suff[sa[i-1]]\)的最大公共前綴，也就是排名完后兩個相鄰的后綴的最長公共前綴。
h[i]：等於\(height[rank[i]]\)，\(suff[i]\)和排序后在它前一名的后綴的最長公共前綴。

height

性質：\(h[i]\geq h[i-1]-1\)。
證明：
設\(suff[k]\)是排在\(suff[i - 1]\)前一名的后綴，則它們的最長公共前綴是\(h[i - 1]\)。
未命名.PNG

在沒有公共前綴的時候\(h[i]\)是\(0\)
如果\(h[i - 1] \leq 1\)，那么\(h[i] \geq 0\)顯然成立。
都去掉第一個字符，就變成\(suff[k + 1]\)和\(suff[i]\)(兩個后綴長度均不為0)。

顯然，都去掉一個字符后\(suff[k+1]\)和\(suff[i]\)的最長公共前綴是\(h[i-1]-1\)。
所以\(suff[i]\)和在它前一名的后綴的最長公共前綴至少是\(h[i - 1] - 1\)。

代碼

void Getheight() {
    int j, k = 0;   //目前height數組計算到k
    for (int i = 1; i <= len; i++) {
        if(k) k--;  //由性質得height至少為k-1
        int j = sa[fir[i] - 1];   //排在i前一位的是誰
        while(s[i + k] == s[j + k]) k++;
        height[fir[i]] = k;
    }
}

對於一個字符串
定義\(LCP(i,j)=lcp(suff(sa[i]),suff(sa[j])\)。
1.對任意\(1\leq i<j<k\leq n，LCP(I,k)=min\{LCP(I,j),LCP(j,k)\}\)
2.設\(i<j\)，\(LCP(i,j)=min\{LCP(k-1,k)|i+1<=k<=j\}\)
而兩個排名不相鄰的最長公共前綴為排名在它們之間的height的最小值
圖片1.png
一道求LCP的題
[AHOI2013]差異
在求出\(height\)數組之后，利用單調棧維護一個上升序列，得到該位置到的左右端點的長度，兩長度相乘就是整個區間的長度，這個長度再乘上\(height[i]\)就是\(height[i]\)的貢獻。
代碼。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 后綴數組詳解+模板后綴數組詳解后綴數組(suffix array)詳解后綴樹 & 后綴數組【后綴數組】后綴數組后綴數組后綴數組入門（一）——后綴排序【后綴數組之height數組】最詳細的后綴數組