香農信息熵(entropy)初步認識


首先區分自信息量和源信息量。一個隨機變量有多個取值,每個取值的信息量為自信息量,所有取值信息量的加權平均(即數學期望)即是這個隨機變量(源)的信息量。

什么是信息量?可以近似地將不確定性視為信息量。一個消息帶來的不確定性大,就是帶來的信息量大。比如,帶來一個信息:x=sun raise in east,其概率p(x)=1,那么是一句廢話,信息量視為0。帶來另一個信息:y=明天有一個老師要抽查作業------帶來了很多不確定性——8個老師,其中一個要抽查,另外7個不抽查,那么就值得我去思索判斷推理這其中的信息了------高不確定性,高信息量。

如何量化自信息量?用公式了 I(x)= -p(x)*log2(p(x))  【采用負的log2,使得整個函數其范圍0<=I(x)<=1,符合直觀感受,具體的就不累述了,忘了就看資料】

如何量化源信息量(熵)?將所有自信息量取數學期望即可,表示為H(x),公式就不寫了。

 

那么,可以認為熵小的信息量少,確定性大。而這,正是我們在決策樹中確定根特征的因素——選擇熵小的特征做分類依據,可以更加確定地圈定待分數據的類別——這真是我們監督學習中分類的目的。(誤;下文更更正)

選擇熵小的做根特征后,按這個特征分出branch,每個branch再選擇另外熵小的做第二個根特征,以此類推,最后比較准確地確定類別。

但 note:不需要按所有特征來生成樹,因為這樣會有"過度匹配"、‘高射炮打蚊子’問題,反而不准(具體的以后會設計)。

加油吧!

------------------------------------------------------------更正1---------------------------------------------------------------

根特征的選擇,是靠信息增益而不是熵。信息增益=熵-條件熵,也就是給出一個條件后,信息不確定性的減小程度!當我們給出一個特征來分類時,若信息增益大也就是分類的不確定性減少程度大,那么我們就選它來做根特征,從而更快確定分類。

從這出錯誤可以看出b站appanch團隊對《machine learning in action》的解讀可信度很低,不可信賴,但當做輔助尚可。

另外,補充有關決策樹的幾個名詞,葉節點:分支的最末端,在決策樹里反映為類;內部節點,branch后任可branch的節點,反映為另外一個特征屬性。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM