整理一下這幾個量的計算公式,便於記憶
采用信息增益率可以解決ID3算法中存在的問題,因此將采用信息增益率作為判定划分屬性好壞的方法稱為C4.5。需要注意的是,增益率准則對屬性取值較少的時候會有偏好,為了解決這個問題,C4.5並不是直接選擇增益率最大的屬性作為划分屬性,而是之前先通過一遍篩選,先把信息增益低於平均水平的屬性剔除掉,之后從剩下的屬性中選擇信息增益率最高的,這樣的話,相當於兩方面都得到了兼顧。
參考資料:信息熵、信息增益、信息增益率
多重共線性:多重共線性是指多變量線性回歸中,變量之間由於存在高度相關關系而使回歸估計不准確。比如虛擬變量陷阱(英語:Dummy variable trap)即有可能觸發多重共線性問題。