數據結構:哈夫曼樹和哈夫曼編碼


哈夫曼樹

哈夫曼樹是一種最優二叉樹,其定義是:給定n個權值作為n個葉子節點,構造一棵二叉樹,若樹的帶權路徑長度達到最小,這樣的樹就達到最優二叉樹,也就是哈夫曼樹,示例圖如下:

基本概念

深入學習哈夫曼樹前,先了解一下基本概念,並以上面的哈夫曼樹圖為例

  • 路徑:樹中一個結點到另一個結點之間的分支序列構成兩個結點間的路徑。
  • 路徑長度:路徑中分支的數目,從根結點到第L層結點的路徑長度為L-1。例如100和80的路徑長度為1,50和30的路徑長度為2。
  • 結點的權:樹中結點的數值,例如100,50那些。
  • 結點帶權路徑長度:根結點到該結點之間的路徑長度與該結點的權的乘積。 如結點20的路徑長度為3,該結點的帶權路徑長度為:3*20 = 60。
  • 樹的帶權路徑長度:所有葉子結點的帶權路徑長度之和,記為WPL。例如上圖樹的WPL = 1100 + 280 +320 +310 = 350。

帶權路徑長度比較

前面說到,哈夫曼樹是最優二叉樹,因為符合哈夫曼樹特點的樹的帶權路徑長度一定是最小的,我們將哈夫曼樹和普通的二叉樹做個比較,仍以上圖為例,上圖的哈夫曼樹是結點10,20,50,100組成的二叉樹,WPL是350,用這四個結點組成普通的二叉樹,結果如下:

不難計算,該二叉樹的WPL = 210 + 220 + 250 + 2100 = 360,明顯比哈夫曼樹大,當然二叉樹的組成結果不唯一,但WPL一定比哈夫曼樹大。所以說哈夫曼樹是最優二叉樹。

哈夫曼樹的構造

現在假定有n個權值,設為w1、w2、…、wn,將這n個權值看成是有n棵樹的森林,根據最小帶權路徑長度的原則,我們可以按照下面步驟來將森林構造成哈夫曼樹:

  1. 在森林中選出根結點的權值最小的兩棵樹進行合並,作為一棵新樹的左、右子樹,且新樹的根結點權值為其左、右子樹根結點權值之和;
  2. 從森林中刪除選取的兩棵樹,並將新樹加入森林;
  3. 重復1、2步,直到森林中只剩一棵樹為止,該樹即為所求得的哈夫曼樹。

以森林 (16,20,23,24,50) 為例,其構造步驟如下:

① 合並權值為16和20的樹,構成權值為36的新樹,森林變為(36,23,24,50);

② 合並最小的兩棵樹23和24,組成新的樹47,這時森林變為(36,47,50);

③ 合並36和47的樹作為權值83的新樹,並和50結合組成根節點權值為133的哈夫曼樹。

最終結果圖如下:

哈夫曼編碼

哈夫曼是一種無前綴編碼,使用一種特別的方法為信號源中的每個符號設定二進制碼,解碼時不會混淆。其主要應用在數據壓縮,加密解密等場合。可以與哈夫曼樹進行結合生成。

給哈夫曼樹的根節點分配比特0,左子樹分配0,右字數分配1,一直遞歸下去,然后就可以得到符號的碼值了。假設我有A,B,C,D,E五個字符,出現的頻率(即權值)分別為5,4,3,2,1。

這樣結點對應的編碼為:16 - > 100,20 - > 101,23 - > 110,24 - > 111,50 - > 0


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM