一、基尼指數的概念
基尼指數(Gini不純度)表示在樣本集合中一個隨機選中的樣本被分錯的概率。
注意:Gini指數越小表示集合中被選中的樣本被參錯的概率越小,也就是說集合的純度越高,反之,集合越不純。當集合中所有樣本為一個類時,基尼指數為0.
二、基尼系數的計算公式
基尼指數的計算公式為:
三、計算示例
我們分別來計算一下決策樹中各個節點基尼系數:
以下excel表格記錄了Gini系數的計算過程。
我們可以看到,GoodBloodCircle的基尼系數是最小的,也就是最不容易犯錯誤,因此我們應該把這個節點作為決策樹的根節點。在機器學習中,CART分類樹算法使用基尼系數來代替信息增益比,基尼系數代表了模型的不純度,基尼系數越小,不純度越低,特征越好。這和信息增益(比)相反。