信息熵、信息增益、信息增益率、gini、woe、iv、VIF


整理一下這幾個量的計算公式,便於記憶

 

 

采用信息增益率可以解決ID3算法中存在的問題,因此將采用信息增益率作為判定划分屬性好壞的方法稱為C4.5。需要注意的是,增益率准則對屬性取值較少的時候會有偏好,為了解決這個問題,C4.5並不是直接選擇增益率最大的屬性作為划分屬性,而是之前先通過一遍篩選,先把信息增益低於平均水平的屬性剔除掉,之后從剩下的屬性中選擇信息增益率最高的,這樣的話,相當於兩方面都得到了兼顧。
參考資料:信息熵、信息增益、信息增益率

                  woe和iv的計算

 多重共線性:多重共線性是指多變量線性回歸中,變量之間由於存在高度相關關系而使回歸估計不准確。比如虛擬變量陷阱(英語:Dummy variable trap)即有可能觸發多重共線性問題。

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM