哈夫曼編碼(Huffman Coding),又稱霍夫曼編碼,是一種編碼方式,可變字長編碼(VLC)的一種。Huffman於1952年提出一種編碼方法,該方法完全依據字符出現概率來構造異字頭的平均長度最短的碼字,有時稱之為最佳編碼,一般就叫做Huffman編碼(有時也稱為霍夫曼編碼)。
哈夫曼編碼,主要目的是根據使用頻率來最大化節省字符(編碼)的存儲空間。
簡易的理解就是,假如我有A,B,C,D,E五個字符,出現的頻率(即權值)分別為5,4,3,2,1,那么我們第一步先取兩個最小權值作為左右子樹構造一個新樹,即取1,2構成新樹,其結點為1+2=3,如圖:
虛線為新生成的結點,第二步再把新生成的權值為3的結點放到剩下的集合中,所以集合變成{5,4,3,3},再根據第二步,取最小的兩個權值構成新樹,如圖:
再依次建立哈夫曼樹,如下圖:
其中各個權值替換對應的字符即為下圖:
所以各字符對應的編碼為:A->11,B->10,C->00,D->011,E->010
霍夫曼編碼是一種無前綴編碼。解碼時不會混淆。其主要應用在數據壓縮,加密解密等場合。
如果考慮到進一步節省存儲空間,就應該將出現概率大(占比多)的字符用盡量少的0-1進行編碼,也就是更靠近根(節點少),這也就是最優二叉樹-哈夫曼樹。
為什么?-----> 權值大的在上層,權值小的在下層。滿足出現頻率高的碼長短。
哈夫曼編碼的帶權路徑權值:葉子節點的值 * 葉子節點的高度(根節點為0)
上圖的帶權路徑長度為:(3+4+5)*2+(1+2)*3=33
以上轉載自https://blog.csdn.net/qq_36653505/article/details/81701181