數據結構中為了存儲和查找的方便,用各種樹結構來存儲文件,本章就淺談一下各種樹的表示方法、特點及各自的用途,本章設計的樹結構包括:二叉查找樹(二叉排序樹)、平衡二叉樹(AVL樹)、紅黑樹、B-樹、B+樹、字典樹(trie樹)、后綴樹、廣義后綴樹。
1、二叉查找樹(二叉排序樹)
(圖a)
二叉查找樹是一種動態查找表(圖a),具有這些性質:
(1)若它的左子樹不為空,則左子樹上的所有節點的值都小於它的根節點的值;
(2)若它的右子樹不為空,則右子樹上所有節點的值都大於它的根節點的值;
(3)其他的左右子樹也分別為二叉查找樹;
(4)二叉查找樹是動態查找表,在查找的過程中可見添加和刪除相應的元素,在這些操作中需要保持二叉查找樹的以上性質。
2、平衡二叉樹(AVL樹)
(圖b)
含有相同節點的二叉查找樹可以有不同的形態,而二叉查找樹的平均查找長度與樹的深度有關,所以需要找出一個查找平均長度最小的一棵,那就是平衡二叉樹(圖b),具有以下性質:
(1)要么是棵空樹,要么其根節點左右子樹的深度之差的絕對值不超過1;
(2)其左右子樹也都是平衡二叉樹;
(3)二叉樹節點的平衡因子定義為該節點的左子樹的深度減去右子樹的深度。則平衡二叉樹的所有節點的平衡因子只可能是-1,0,1。
3、紅黑樹
(圖c)
紅黑樹是一種自平衡二叉樹,在平衡二叉樹的基礎上每個節點又增加了一個顏色的屬性,節點的顏色只能是紅色或黑色。具有以下性質:
(1)根節點只能是黑色;
(2)紅黑樹中所有的葉子節點后面再接上左右兩個空節點,這樣可以保持算法的一致性,而且所有的空節點都是黑色;
(3)其他的節點要么是紅色,要么是黑色,紅色節點的父節點和左右孩子節點都是黑色,及黑紅相間;
(4)在任何一棵子樹中,從根節點向下走到空節點的路徑上所經過的黑節點的數目相同,從而保證了是一個平衡二叉樹。
4、B-樹
(圖d)
B-樹是一種平衡多路查找樹,它在文件系統中很有用。一棵m階B-樹(圖d為4階B-樹),具有下列性質:
(1)樹中每個節點至多有m棵子樹;
(2)若根節點不是葉子節點,則至少有2棵子樹;
(3)除根節點之外的所有非終端節點至少有
棵子樹;
(4)每個節點中的信息結構為(A0,K1,A1,K2......Kn,An),其中n表示關鍵字個數,Ki為關鍵字,Ai為指針;
(5)所有的葉子節點都出現在同一層次上,且不帶任何信息,也是為了保持算法的一致性。
5、B+樹
(圖e)
B+數是B-樹的一種變形,它與B-樹的差別在於(圖e為3階B+樹):
(1)有n棵子樹的節點含有n個關鍵字;
(2)所有的葉子節點包含了全部關鍵字的信息,及指向這些關鍵字記錄的指針,且葉子節點本身按關鍵字大小自小到大順序鏈接;
(3)所有非終端節點可以看成是索引部分,節點中僅含有其子樹(根節點)中最大(或最小)關鍵字,所有B+樹更像一個索引順序表;
(4)對B+樹進行查找運算,一是從最小關鍵字起進行順序查找,二是從根節點開始,進行隨機查找。
6、字典樹(trie樹)
(圖f)
字典樹是一種以樹形結構保存大量字符串。以便於字符串的統計和查找,經常被搜索引擎系統用於文本詞頻統計。它的優點是:利用字符串的公共前綴來節約存儲空間,最大限度地減少無謂的字符串比較,查詢效率比哈希表高。具有以下特點(圖f):
(1)根節點為空;
(2)除根節點外,每個節點包含一個字符;
(3)從根節點到某一節點,路徑上經過的字符連接起來,為該節點對應的字符串。
(4)每個字符串在建立字典樹的過程中都要加上一個區分的結束符,避免某個短字符串正好是某個長字符串的前綴而淹沒。
7、后綴樹
所謂后綴樹,就是包含一則字符串所有后綴的壓縮了的字典樹。先說說后綴的定義。給定一長度為n的字符串S=S1S2..Si..Sn,和整數i,1 <= i <= n,子串SiSi+1...Sn都是字符串S的后綴。以字符串S=XMADAMYX為例,它的長度為8,所以S[1..8], S[2..8], ... , S[8..8]都算S的后綴,我們一般還把空字串也算成后綴。這樣,我們一共有如下后綴。對於后綴S[i..n],我們說這項后綴起始於i。
- S[1..8], XMADAMYX, 也就是字符串本身,起始位置為1
- S[2..8], MADAMYX,起始位置為2
- S[3..8], ADAMYX,起始位置為3
- S[4..8], DAMYX,起始位置為4
- S[5..8], AMYX,起始位置為5
- S[6..8], MYX,起始位置為6
- S[7..8], YX,起始位置為7
- S[8..8], X,起始位置為8
- 空字串。記為$。
所有這些后綴字符串組成一棵字典樹:

仔細觀察上圖,我們可以看到不少值得壓縮的地方。比如藍框標注的分支都是獨苗,沒有必要用單獨的節點同邊表示。如果我們允許任意一條邊里包含多個字母,就可以把這種沒有分叉的路徑壓縮到一條邊。另外每條邊已經包含了足夠的后綴信息,我們就不用再給節點標注字符串信息了。我們只需要在葉節點上標注上每項后綴的起始位置。於是我們得到下圖:
這樣的結構丟失了某些后綴。比如后綴X在上圖中消失了,因為它正好是字符串XMADAMYX的前綴。為了避免這種情況,我們也規定每項后綴不能是其它后綴的前綴。要解決這個問題其實挺簡單,在待處理的子串后加一個空字串就行了。例如我們處理XMADAMYX前,先把XMADAMYX變為 XMADAMYX$,於是就得到suffix tree。

這就形成一棵后綴樹了。關於如何建立一棵后綴樹,已有很成熟的算法,能在o(n)時間內解決。
8、廣義后綴樹
廣義后綴樹是好幾個字符串的的所有后綴組成的字典樹,同樣每個字符串的所有后綴都具有一個相同的結束符,不同字符串的結束符不同。
傳統的后綴樹只能處理一個單詞的所有后綴。廣義后綴樹存儲任意多個單詞的所有后綴。例如字符串“abab”和“baba”,首先將它們使用特殊結束符鏈接起來,如表示成“abab$baba#”,然后求連接后的新字符的后綴樹,遍歷所得后綴樹,如遇到特殊字符,如“$”,"#"等則去掉以該節點為跟的子樹,最后所得后綴樹即為原字符串組的廣義后綴樹。其實質是將兩個字符串的所有后綴,即:abab$,bab$,ab$,b$,baba#,aba#,ba#,a#,組成字典樹,再進行壓縮處理。廣義后綴樹的一個常應用就是判斷兩個字符串的相識度。
