信息增益(information gain)


信息增益是隨機森林算法里面的一個很重要的算法,因為我們在選擇節點的特征項的時候,就要通過信息增益或者是信息增益率來選擇。這里先理解信息增益。

什么是信息增益呢?信息增益(Kullback–Leibler divergence)又稱information divergence,information gain,relative entropy 或者KLIC,其實在有些書中叫做相對熵,但是理解起相對熵的公式比較復雜,讓人不能很好的理解。下面我以分類來理解這個算法。

假如我們擁有M個類別標簽

C={C1,C2,C3....Cn}

  

並且擁有N個特征:

T={T1,T2,T3....Tn}

  

那么對於某一個特征來說,加入特征項Ti是離散的,

 

那么有可以定義為如下的公式:

 

其中H(C)代表的是類別C的信息熵;

 

代表在給定的情況下,求類別屬於類別C的條件熵;

以上的公式都比較容易理解,難以理解的就是當特征項的取值不是離散的,而是連續的,這個時候怎么辦?如果特征項的連續的,那么我們可以枚舉每一種二分類,找到增益最大的哪一種分類。也就是

標注:wi輸入法 for 安卓和ios 很不錯的輸入法,歡迎使用。

http://wi.hit.edu.cn/im


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM