如何理解最后一句話呢,編碼信息熵就是平均最小編碼長度?
信息熵就是平均最小編碼長度
信息熵想用最短的碼表示信息。
熵公式,有數學期望,對概率求對數,表示單符號的信息量。
所以信息熵的期望就是平均信息。 平均兩個字有了。
再說最小,最小我沒法嚴格的推到,我只能說服我自己
設二進制,k個數據等概,p(xi)是1/k,
h(x)= -Σp(xi)×log(p(xi)
log以二為底,所以信息熵剛好是以2為底k的對數。
如果k取是二指數倍,剛好就是二進制的位數,
k不是整數倍,floor(k)是他最小的表示方法。因為不能用小數。
小數當然比floor(小數)要小。
所以信息熵是最小的平均編碼長度
編碼長度就是-log(p(xi)
然后把平均,最小,編碼長度串接在一起。我估計就是作者的意思了
log以二為底,所以信息熵剛好是以2為底k的對數。
如果k取是二指數倍,剛好就是二進制的位數,
k不是整數倍,floor(k)是他最小的表示方法。因為不能用小數。
小數當然比floor(小數)要小。
所以信息熵是最小的平均編碼長度
其實1是最好想的
比如拋硬幣,1代表正,0代表反
也可以用,11代表正,00代表反
最短長度是1 h(x)=(1/2)*log(1/2)*2 此時log以2位底數
所以 h(x)等於1 最小