原文鏈接:http://tecdat.cn/?p=13546
變量重要性圖是查看模型中哪些變量有趣的好工具。由於我們通常在隨機森林中使用它,因此它看起來非常適合非常大的數據集。大型數據集的問題在於許多特征是“相關的”,在這種情況下,很難比較可變重要性圖的值的解釋。例如,考慮一個非常簡單的線性模型
在這里,我們使用一個隨機森林的特征之間的關系模型,但實際上,我們考慮另一個特點-不用於產生數據-
為了獲得更可靠的結果,我生成了100個大小為1,000的數據集。
頂部的紫色線是的可變重要性值
看起來 比其他兩個
實際上,我想到的是當我們考慮逐步過程時以及從集合中刪除每個變量時得到的結果,
在這里,如果我們使用與以前相同的代碼,
我們得到以下圖
刪除時會顯示紫線
然而,當我們擁有很多相關特征時,討論特征的重要性並不是那么直觀。