數據結構-王道-樹和二叉樹

本文轉載自查看原文 2018-09-19 17:12 1406 數據結構

[top]

樹和二叉樹

樹：是$N(N\geq0)$個結點的有限集合，$N=0$時，稱為空樹，這是一種特殊情況。在任意一棵非空樹中應滿足：

有且僅有一個特定的稱為根的結點。
當$N>1$時，其余結點可分為$m(m>0)$個互不相交的有限集合$T_1,T_2,\ldots,T_m$，其中每一個集合本身又是一棵樹，並且稱為根結點的子樹。

顯然樹的定義是遞歸的，是一種遞歸的數據結構。樹作為一種邏輯結構，同時也是一種分層結構，具有以下兩個特點：

樹的根結點沒有前驅結點，除根結點之外的所有結點有且僅有一個前驅結點。
樹中所有結點可以有零個或者多個后繼結點。

樹適合於表示具有層次結構的數據。樹中的某個結點（除了根結點之外）最多之和上一層的一個結點（其父結點）有直接關系，根結點沒有直接上層結點，因此在n個結點的樹中最多只有n-1條邊。而樹中每個結點與其下一層的零個或者多個結點（即其子女結點）有直接關系。

![Alt text](http://pfap49gih.bkt.clouddn.com/1537133941165.png) - 對K來說：根結點A到K的唯一路徑上的任意結點，稱為K的祖先結點。如結點B是K的祖先節點，K是B的子孫結點。路徑上最接近K的結點E稱為K的**雙親結點**，K是E的孩子結點。根A是樹中唯一沒有雙親的結點。有相同雙親的結點稱為兄弟節點，如K和L有相同的雙親結點E，即K和L是兄弟結點。 - 樹中一個結點的子結點個數稱為該結點的度，樹中結點最大度數稱為樹的度。如B的度為2，但是D的度為3，所以該樹的度為3. - 度大於0的結點稱為**分支結點**（又稱為非終端結點）；度為0（沒有子女結點）的結點稱為**葉子結點**（又稱**終端結點**）。在分支結點中，每個結點的分支數就是該節點的度。 - 結點的高度，深度和層次。 1. 結點的**層次**從樹根開始定義，根節點為第一層（有些教材將根節點定義為第0層），它的子結點為第2層，以此類推。 2. 結點的**深度**是從根節點開始自頂向下逐層累加的。 3. 結點的**高度**是從葉節點開始自底向上逐層累加的。 4. 樹的**高度**（又稱**深度**）是樹中結點的最大層數。 5. **有序書和無序樹**：樹中結點的子樹從左到右是有次序的，不能交換，這樣的樹稱為**有序樹**。有序樹中，一個結點其子結點從左到右順序出現是有關聯的。反之稱為**無序樹**。在上圖中，如果將子結點的位置互換，則變為一棵不同的樹。 6. 路徑和路徑長度：樹中兩個結點之間的**路徑**是由這兩個節點之間所經過的結點序列構成的，而**路徑長度**是路徑上所經過的邊的個數。A和K的路徑長度為3.路徑為B，E。 7. **森林**：森林是m棵互不相交的樹的集合。森林的概念和樹的概念十分相近，因為只要把樹的根節點刪掉之后就變成了森林。反之，只要給n棵獨立的樹加上一個結點，並且把這n棵樹作為該結點的紫書，怎森林就變成了樹。

>樹具有如下最基本的性質。
1. 樹中結點數等於所有節點的度數+1.
2. 度為m的樹中第i層上之多有$m^{i-1}$個結點$(i\geq1)$。
3. 高度為h的m叉樹至多有$\frac{m^h-1}{m-1}$個結點。
4. 具有n個結點的m叉樹的最小高度為$\log_m(n(m-1)+1)$。

二叉樹的概念

二叉樹和度為2的有序樹的區別：

度為2的樹至少有3個結點，而二叉樹則可以為空；
度為2的有序樹的孩子結點的左右次序是相對於另一個孩子結點而言的，如果某個結點只有一個孩子結點，這個孩子結點就無需區別其左右次序，但是二叉樹無論孩子數是否為2，均需要確定其左右次序，也就是說二叉樹結點次數不是相對於另一個結點而言，而是確定的。

![Alt text](http://pfap49gih.bkt.clouddn.com/1537135888776.png)

單解釋一下完全二叉樹：設一個高度為h，有n個結點的二叉樹，當且僅當其每一個結點都與高度為h的滿二叉樹中編號一一對應是稱為完全二叉樹。

二叉樹的遍歷

先序遍歷

void PreOrder(BitTree T)
{
    if(T!=NULL)
    {
        printf("%d\n",T->data);
        PreOrder(T->lchild);
        PreOrder(T->rchild);
    }
}

中序遍歷

void InOrder(BitTree T)
{
    if(T!=NULL)
    {
        InOrder(T->lchild);
        printf("%d\n",T->data);
        InOrder(T->rchild)
    }
}

后序遍歷

void PostOrder(BitTree T)
{
    if(T!=NULL)
    {
        PostOrder(T->lchild);
        PostOrder(T->rchild);
        printf("%d\n",T->data);
    }
}

三種遍歷算法中遞歸遍歷左子樹和右子樹的順序都是固定的，只是訪問根節點的順序不同。不管采用何種遍歷方法，每個結點都是訪問一次，所以時間復雜度就是$O(n)$。
在遞歸遍歷中，遞歸工作棧的深度恰巧是樹的深度，所以在最壞的情況下，二叉樹是有n個結點且深度為n的單支樹，遞歸遍歷算法的時間復雜度是$O(n)$。

@[中序遍歷的非遞歸算法如下]

typedef struct BiTNode
{
    int data;
    struct BiTNode *lchild,*rchild;
}*BitTree;
typedef struct
{
    char data[MaxSize];
    int top;
}SqStack;
void InitStack(SqStack &S)
{
    S.top=-1;
}
void InOrder2(BitTree T)
{
    InitStack(S);
    BitTree p=T;
    while(p||IsEmpty(s))
    {
        if(p)
        {
            Push(S,p);
            p=p->lchild;
        }
        else
        {
            Pop(s,p);
            printf("%d\n",p->data);
            p=p->rchild;
        }
    }
}

線索二叉樹

       遍歷二叉樹就是以一定的規則將二叉樹中的結點排列為一個線性序列，從而得到二叉樹中結點的各種遍歷序列。其實質就是對一個非線性結構進行線性化操作，使在這個訪問序列中的每一個結點（除了最后一個和第一個）都有一個直接前驅結點或者后繼結點。
       傳統的鏈式儲存能夠體現出一種父子關系，不能直接得到結點在遍歷中的前驅或者后繼。通過觀察，我們發現在二叉鏈表表示的二叉樹中存在大量的空指針，若是利用這些空鏈域存放指向其直接的前驅或者后繼的指針，則可以更加方便的運用某些二叉樹的操作算法。引入線索二叉樹是為了加快查找節點的前驅和后繼的速度。
       前面提到，在N個節點的二叉樹中，有N+1個空指針。這是因為每個葉節點都有兩個空指針，而每一個度為1的節點有一個空指針。總的空指針數目為$2N_0+N_1$，又有$N_0=N_2+1$。意思是二倍的葉子節點加上1被的一個孩子的節點的數目。

線索二叉樹的構造。
線索二叉樹的存儲結構描述如下：

typedef struct ThreadNode
{
  int data;
  struct ThreadNode *lchild,*rchild;
  int ltag,rtag;
}ThreadNode,*ThreadTree;

$ltag=0$表示lchild指向的是結點的左孩子
$ltag=1$表示lchild指向的是結點的前驅
$rtag=0$表示rchild指向的是結點的右孩子
$rtag=1$表示rchild指向的是結點的后繼

這種結點結構構成的二叉鏈表作為二叉樹的存儲結構，叫做線索鏈表，其中指向結點前驅和后繼的指針，稱為線索。加上線索的二叉樹稱為線索二叉樹。對二叉樹進行以某種次序遍歷使其變為線索二叉樹的過程叫做線索化。

@[線索化二叉樹的構造]
對二叉樹的線索化，實質上就是遍歷一次二叉樹，只是在遍歷的過程中檢查當前節點的左右指針是否為空，若為空，將他們改為指向前驅節點或者后繼節點的線索。

@[P109]
       度為2的有序樹不是是二叉樹：二叉樹中如果某個節點只有一個孩子節點，那么這個孩子節點的左右次數是確定的，但是在有序樹中如果某個節點只有一個孩子節點則這個節點無需區分其左右次序，所以度為2的樹不是二叉樹。
       完全二叉樹的節點數目和高度的關系是$[\log_2N]+1$。
       完全二叉樹的節點排列是從左到右從上到下，所以如果一個節點沒有左孩子，則它必定是葉節點。
二叉排序樹后面補上。

設層次遍歷的結果為A，B，C。
則先序遍歷的結果為A，B，C。
則中序遍歷的結果為B，A，C。
則后續遍歷的結果為B，C，A。

二叉樹的中序遍歷的最后一個節點一定是從根開始沿右子女指針鏈走到最低的結點。

樹的存儲結構

> 雙親表示法

這種存儲方式采用一組連續空間來存儲每個節點，同時在每個節點中增設一個尾指針指示雙親結點在數組中的位置。根節點下標為0，其偽指針域為-1.

![Alt text](http://pfap49gih.bkt.clouddn.com/1537251014840.png) ```cpp typedef struct // 數的結點定義 { int data; // 數據元素 int parent; // 雙親位置域 }PTNode; typedef struct // 樹的類型定義 { PTNode nodes[Max_Tree_Size]; int n; // 雙親表示 }PTree; ``` 這種結構利用了每個節點（根結點除外）只有唯一雙親的性質，可以很快的得到每個節點的雙親節點，但是求節點的孩子時卻要遍歷整個結構。

並查集

並查集是一種簡單的集合表示，它支持一下三種操作：

$Union(S,root1,root2); $把集合S中的子集合Root2，並入Root1中。要求Root1和Root2互不相交，否則不執行合並。
$Find(S,x);$查找集合S中單元素x所在的子集合，並返回該子集合的名字。
$Initial(S);$將集合S中每一個元素都初始化為只有一個單元素的子集合。
通常用樹（森林）的雙琴表示作為並查集的存儲結構，每個子集合以一棵樹表示。所有表示子集合的樹，構成表示全集合的森林，存放在雙親表示數組中。

並查集的結構定義如下：

#define Size 100
int UFSets[Size];
void Initial(int S[])
{
    for(int i=0;i<Size;i++)
        S[i]=-1;
}
int Find(int S[],int x)
{
    while(S[x]>=0)
        x=S[x];
    return x;
}
void Union(int S[],int Root1,int Root1)
{
    S[Root1]=Root2;
}

森林

由於二叉樹和樹都可以用二叉鏈表作為存儲結構，則以二叉鏈表作為媒介可以導出樹與二叉樹的一個對應關系，即給定一棵樹，可以找出唯一的一棵二叉樹與之對應。從物理結構上看，樹的孩子兄弟表示法和二叉樹的二叉鏈表表示法相同，即每個節點共有兩個指針，分別指向結點的第一個孩子節點和結點的下一個兄弟節點，而二叉鏈表可以使用雙指針。因此，就可以用同意存儲結構的不同解釋將一棵樹轉換為二叉樹。
樹轉換為二叉樹的規則：每個節點的左指針指向她的第一個孩子節點，右指針指向它在書中的相鄰兄弟結點，可表示為左孩子有兄弟。由於根節點沒有兄弟，所以由樹轉換而得的二叉樹沒有右子樹。

![Alt text](http://pfap49gih.bkt.clouddn.com/1537320915918.png) 將森林轉化為二叉樹的規則和樹類似。先將森林中的每一棵樹轉化為二叉樹，再將第一棵樹的根作為轉換后的二叉樹的根，第一棵樹作為轉化后的二叉樹的根的左子樹，第二顆數作為轉換后二叉樹的右子樹，第三棵樹作為轉換后二叉樹根右子樹的右子樹，以此類推，就可將森林轉換為二叉樹。 ### 樹和二叉樹的應用 **二叉排序樹**：簡稱（BST），也稱為二叉查找樹。二叉排序樹或者是一個空樹，或者是一棵具有一下特性的非空二叉樹： 1. 若左子樹非空，則左子樹上所有節點關鍵字值均小於根節點的關鍵字值。 2. 若右子樹非空，則右子樹上所有結點關鍵字值均大於根節點的關鍵字值。 3. 左，右子樹本身也是一棵二叉排序樹由二叉排序樹的定義，有$左子樹根節點值 <根結點值 <右子樹結點值$，所以，對二叉樹進行中序遍歷，可以得到一個遞增的有序序列。 ![Alt text](http://pfap49gih.bkt.clouddn.com/1537322070733.png) 二叉排序樹的查找是從根節點開始的，沿某一分值逐層向下進行比較的過程。若二叉排序樹非空，將給定值與根結點的關鍵字比較，若相等，則查找成功；若不等免責當根節點的關鍵字較大的時候，在根節點的左子樹中繼續查找，否則在右子樹中查找。這顯然是一個遞歸的過程。

二叉排序樹的查找

BSTNode *BST_Search(BitTree T,int key,BSTNode *&p)
{   // 返回指向關鍵字為key的結點指針，若不存在則返回NULL
    p=NULL; // p指向被查找結點的雙親，用於插入和刪除操作中。
    while(T!=NULL&&key!=T->data)
    {
        p=T;
        if(key<T->data)
            T=T->lchild;
        else
            T=T->rchild;
    }
    return T;
}

二叉排序樹的插入

int BST_Insert(BitTree &T,int k)
{
    if(T==NULL)         // 原樹為空，新插入的記錄為根節點。
    {
        T=(BitTree)malloc(sizeof(BSTNode));
        T->data=k;
        T->lchild=T->rchild=NULL;
        return 1;
    }
    else if(k==T->data)  // 存在相同的結點。
        return 0;
    else if(k<T->data)   // 插入到T的左子樹中
        return BST_Insert(T->lchild,k);
    else
        return BST_Insert(T->rchild,k);
}

由此可見，插入的新節點一定是某個葉節點。在一個二叉排序樹先后依次插入結點28和58，虛線表示的邊是其查找的路徑。

二叉排序樹的構造

void Create_BST(BitTree &T,int str[],int n)
{
    T=NULL;
    int i=0;
    while(i<n)
    {
        BST_Insert(T,str[i]);
        i++;
    }
}

二叉排序樹的刪除

在二叉排序樹中刪除一個結點時，不能把以該結點為根的子樹上的結點都刪除，必須先把被刪除結點從存儲二叉排序樹的鏈表上摘下來，將因刪除結點而斷開的二叉鏈表重新鏈接起來，同時確保二叉排序樹的性質不會丟失。
刪除操作的實現過程按照以下三種情況進行處理：

如果被刪除結點z是葉節點，則直接刪除，不會破壞二叉排序樹的性質。
如果結點z只有一顆左子樹后者右子樹，則讓z的子樹稱為z父結點的子樹，替代z的位置。
若結點z有左右兩棵子樹，則令z的直接后繼（或者直接前驅）替代z，然后從二叉排序樹中刪去這個直接后繼（或者直接前驅），這樣就變成了第一種或者第二種情況。

![Alt text](http://pfap49gih.bkt.clouddn.com/1537325195336.png) 對於高度為H的二叉排序樹，其插入和刪除操作都是$O(H)$。但最壞的情況下，即構造二叉排序樹的輸入序列是有序的，則會形成一個傾斜的單支樹，此時二叉排序樹的性能顯著變壞，樹的高度也增加為元素的個數N。二叉排序樹查找算法的平均查找長度取決於樹的高度，即與二叉樹的形態有關。如果二叉排序樹是一個只有左（右）孩子的單支樹（類似於有序的單鏈表），其平均長度和單鏈表相同為$O(n)$，如果二叉排序樹的左右子樹的高度之差的絕對值不超過1，這樣的二叉排序樹被稱為平衡二叉樹。她的平均查找長度達到$O(\log_2n)$。從查找過程中看，二叉排序樹和二分查找相似。就平均時間性能而言，二叉排序樹上的查找和二分查找差不多，但二分查找的判定樹唯一，而二叉排序樹不唯一，相同的關鍵字其插入順序不同可能會生成不同的二叉排序樹。就表的維護而言，二叉排序樹無需移動節點，只需修改指針即可完成插入和刪除操作，平均執行時間是$O(\log_2n)$。二分查找的對象是有序順序表，若有插入和刪除節點的操作，所花的時間代價是$O(n)$。當有序表是靜態查找表時，宜用順序表作為其存儲結構，而采用二分查找實現其查找操作若有序表是動態查找表，則應該選擇二叉排序樹作為其邏輯結構。 ### 平衡二叉樹為了避免樹的高度增長過快，降低二叉排序樹的性能，我們規定在插入和刪除二叉樹節點時，要保證任意節點的左右子樹的高度差的絕對值不超過1，將這樣的二叉樹稱為**平衡二叉樹**，簡稱平衡樹（AVL）。定義節點左子樹和右子樹的高度差為該節點的平衡因子，則平衡二叉樹節點的平衡因子只能是-1，0，1。如圖所示： ![Alt text](http://pfap49gih.bkt.clouddn.com/1537334623442.png)

平衡二叉樹的插入：二叉排序樹保證平衡的基本思想：每當在二叉排序樹中插入（或刪除）一個節點時，首先要檢查其在插入路徑上的節點是否因此次操作導致了不平衡。如果導致了不平衡，則先找到插入路徑上距離插入節點最近的平衡因子絕對值大於1的節點A，再對以A為根的子樹，在保持二叉排序樹特性的前提下調整各節點的位置關系，使之重新達到平衡。
注意：每次調整的對象都是最小不平衡子樹，即在插入路徑上距離插入節點最近的平衡因子的絕對值大於1的結點作為根的子樹。

![Alt text](http://pfap49gih.bkt.clouddn.com/1537335406895.png) LL平衡旋轉 LL平衡旋轉又稱為**右單旋轉**：由於結點A的左孩子L的左子樹L上插入了新節點，A的平衡因子由1增至2，導致以A為根的子樹失去平衡，需要一次向右的旋轉操作。將A的左孩子B向右上旋轉代替A稱為新的根節點，將A結點向右下旋轉稱為B的右子樹的根節點，而B的原右子樹則稱為A結點的左子樹。 ![Alt text](http://pfap49gih.bkt.clouddn.com/1537337461559.png) RR平衡旋轉 RR平衡旋轉又稱為**左單旋轉**。由於在結點A的右孩子R的右子樹R上插入了新的結點，A的平衡因子由-1減至-2，導致以A為根的子樹失去平衡，需要一次向左的旋轉操作。將A的右孩子B向左上旋轉替代A稱為新的根節點，將A結點向左下旋轉成為B的左子樹的根節點，而B的原左子樹則作為A結點的右子樹。 ![Alt text](http://pfap49gih.bkt.clouddn.com/1537338217054.png) LR平衡旋轉 LR平衡旋轉又稱為**先左后右雙旋轉**：由於在A的左孩子L的右子樹R上插入新節點，A的平衡因子由1增至2，導致以A為根的子樹失去平衡，需要進行兩次旋轉操作，先左旋轉然后右旋轉。先將A結點的左孩子B的右子樹的根節點C向上旋轉提升至B結點的位置，然后再把該C結點向右上旋轉提升至A結點的位置，如圖所示。 ![Alt text](http://pfap49gih.bkt.clouddn.com/1537338323932.png) RL平衡旋轉 RL平衡旋轉又稱先右后左雙旋轉。由於在A的右孩子R的左子樹L上插入新節點，A的平衡因子由-1減至-2，導致以A為根的子樹失去平衡，需要進行兩次旋轉操作，先右旋轉后左旋轉。先將A結點的右孩子B的子樹的根節點C向右上旋轉提升至B結點的位置，然后再把C結點向左上旋轉提升到A結點的位置，如圖所示。 ![Alt text](http://pfap49gih.bkt.clouddn.com/1537340095947.png) #### 平衡二叉樹的查找在平衡二叉樹上進行查找的過程和二叉排序樹相同，因此，在查找過程中和給定值進行標膠的關鍵字個數不超過樹的深度。假設以$N_h$表示深度為h的平衡樹中含有最少結點數。顯然，$N_0=0,N_1=1,N_2=2$，並且有$N_h=N_{h-1}+N_{h-2}+1$。易得含有n個結點的平衡二叉樹的最大深度為$\log_2n$，因此，平衡二叉樹的平均查找長度為$O(\log_2n)$。 #### 哈夫曼(Huffman)樹和哈夫曼編碼在許多實際應用中，樹中結點常常被賦予一個表示某種意義的數值，成為該節點的權。從樹根結點到任意結點的路徑長度（經過的邊數）與該節點上的權值的乘積稱為該結點的帶權路徑長度。樹中所有葉節點的帶權路徑長度之和稱為該樹的帶權路徑長度。記為： $WPL=\sum_{i+1}^nw_i*l_i$ 式中：$w_i$是第i個葉節點所帶的權值；$l_i$是該葉節點到根節點的路徑長度。在$N$個含有帶權葉子節點的二叉樹中，其中帶權路徑長度$（WPL）$最小的二叉樹稱為哈夫曼樹，也稱為最優二叉樹。 ##### 哈夫曼樹的構造給定N個權值分別為$w_1,w_2,w_3,\ldots,w_N$的結點。通過哈夫曼算法可以構造出最優二叉樹，算法的描述如下： 1. 將這個N個結點分別作為N棵僅含有一個結點的二叉樹，構成森林F。 2. 構造一個新節點，並從F中選取兩顆根結點權值最小的樹，作為新節點的左，右子樹，並且將新節點的權值設置為左右子樹上根節點的權值之和。 3. 從F中刪除剛才選取的兩棵樹，同時將新得到的樹加入F中。 4. 重復步驟2，3。森林中剩下唯一一棵樹為止。

從上述步驟中可以看出哈夫曼樹具有如下的特點：
1. 每個初始結點最終都會稱為葉節點，並且權值越小的結點路徑長度越大。
2. 構造過程中共新建了$N-1$個結點，因此哈夫曼樹中結點的總數為$2N-1$。
3. 每次構造都選擇兩棵樹作為新節點的孩子，因此哈夫曼樹中不存在度為1的結點。

哈夫曼樹編碼

       對待處理一個字符串序列，如果每個字符用同樣長度的二進制位來表示，則這種方式稱為固定長度編碼。若允許對不同字符用不等長的二進制位表示，則這種編碼方式稱為可變長度編碼。可變長度編碼比固定長度編碼好得多，其特點是對頻率高的字符賦予段編碼，而對頻率較低的字符則賦予一些較長的編碼，從而可以是字符的平均編碼長度被縮短，起到壓縮數據的效果。哈夫曼編碼是一種被廣泛應用而且非常有效的數據壓縮編碼方法。
       如果沒有一個編碼是另一個編碼的前綴，則稱這樣的編碼為前綴編碼。如0，101，100是前綴編碼。對前綴編碼的解碼也是很簡單的。因為沒有一個碼是其他碼的前綴。所以可以識別出第一個編碼，將他翻譯為源碼，在對雨下的編碼文件重復同樣的操作。如$'00101100'$可被唯一的分析為0，0，101，100。
       由哈夫曼樹得到哈夫曼編碼是很自然的過程，首先將每個出現的字符當作一個獨立的結點，其權值為它出現的頻度（或者是次數），構造出對應的哈夫曼樹。顯然所有字符結點都出現在葉節點中。我們可以將字符的編碼解釋為從根至該字符的路徑上邊標記的序列，其中邊標記為0表示“轉向左孩子”，標記為1表示“轉向右孩子”。

![Alt text](http://pfap49gih.bkt.clouddn.com/1537344715522.png) 因為0，1表示左子樹還是右子樹沒有明確的規定。因此，左右結點的順序是任意的，所以構造出哈夫曼編碼並不唯一，但是各哈夫曼樹的帶權路徑長度相同且為最優。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【數據結構】樹與二叉樹數據結構（樹）：二叉樹數據結構基礎溫故-4.樹與二叉樹（上）淺談數據結構-樹和二叉樹之間關系 Android版數據結構與算法(六):樹與二叉樹數據結構——樹、森林和二叉樹之間的轉換數據結構——樹、森林和二叉樹之間的轉換數據結構-二叉樹的遍歷與樹的轉換數據結構入門-樹的遍歷以及二叉樹的創建數據結構學習總結--樹和二叉樹