原文地址:https://www.jianshu.com/p/75518e6a5c64
熵的概念中有信息熵、信息增益、信息增益比、基尼指數,這些統統作為決策樹分裂的依據,其中,我們需要知道信息熵與基尼指數的關系。
信息熵與基尼指數的關系
-  
首先看二者的定義:
 
              
將 f(x) = −lnx 在 x = 1 處進行一階泰勒展開(忽略高階無窮小):
 
              
因此,熵可近似轉化為:
 
              
 
              
基尼指數是信息熵中﹣logP 在P = 1處一階泰勒展開后的結果!所以兩者都可以用來度量數據集的純度,用於描述決策樹節點的純度!
 
作者:0過把火0
鏈接:https://www.jianshu.com/p/75518e6a5c64
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
