基尼系數(Gini Impurity)的理解和計算


 

一、基尼指數的概念

基尼指數(Gini不純度)表示在樣本集合中一個隨機選中的樣本被分錯的概率。
注意:Gini指數越小表示集合中被選中的樣本被參錯的概率越小,也就是說集合的純度越高,反之,集合越不純。當集合中所有樣本為一個類時,基尼指數為0.

二、基尼系數的計算公式

基尼指數的計算公式為:
在這里插入圖片描述

三、計算示例

我們分別來計算一下決策樹中各個節點基尼系數:
在這里插入圖片描述
以下excel表格記錄了Gini系數的計算過程。
在這里插入圖片描述
我們可以看到,GoodBloodCircle的基尼系數是最小的,也就是最不容易犯錯誤,因此我們應該把這個節點作為決策樹的根節點。在機器學習中,CART分類樹算法使用基尼系數來代替信息增益比,基尼系數代表了模型的不純度,基尼系數越小,不純度越低,特征越好。這和信息增益(比)相反。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM