信息增益是隨機森林算法里面的一個很重要的算法,因為我們在選擇節點的特征項的時候,就要通過信息增益或者是信息增益率來選擇。這里先理解信息增益。
什么是信息增益呢?信息增益(Kullback–Leibler divergence)又稱information divergence,information gain,relative entropy 或者KLIC,其實在有些書中叫做相對熵,但是理解起相對熵的公式比較復雜,讓人不能很好的理解。下面我以分類來理解這個算法。
假如我們擁有M個類別標簽
C={C1,C2,C3....Cn}
並且擁有N個特征:
T={T1,T2,T3....Tn}
那么對於某一個特征來說,加入特征項Ti是離散的,
那么有可以定義為如下的公式:
其中H(C)代表的是類別C的信息熵;
代表在給定的情況下,求類別屬於類別C的條件熵;
以上的公式都比較容易理解,難以理解的就是當特征項的取值不是離散的,而是連續的,這個時候怎么辦?如果特征項的連續的,那么我們可以枚舉每一種二分類,找到增益最大的哪一種分類。也就是
標注:wi輸入法 for 安卓和ios 很不錯的輸入法,歡迎使用。