拓端tecdat|R語言隨機森林模型中具有相關特征的變量重要性


原文鏈接:http://tecdat.cn/?p=13546


 

變量重要性圖是查看模型中哪些變量有趣的好工具。由於我們通常在隨機森林中使用它,因此它看起來非常適合非常大的數據集。大型數據集的問題在於許多特征是“相關的”,在這種情況下,很難比較可變重要性圖的值的解釋。例如,考慮一個非常簡單的線性模型

在這里,我們使用一個隨機森林的特征之間的關系模型,但實際上,我們考慮另一個特點-不用於產生數據- ​,即相關  ​。我們考慮這三個特征的隨機森林  ​。

為了獲得更可靠的結果,我生成了100個大小為1,000的數據集。

library(mnormt)


RF=randomForest(Y~.,data=db)

plot(C,VI[1,],type="l",col="red")
lines(C,VI[2,],col="blue")
lines(C,VI[3,],col="purple")

 

頂部的紫色線是的可變重要性值  ​,該值相當穩定(作為一階近似值,幾乎恆定)。紅線是的變量重要性函數,  ​ 藍線是的變量重要性函數  ​。例如,具有兩個高度相關變量的重要性函數為

看起來  比其他兩個​ 要  重要得多,但事實並非如此。只是模型無法在​ 和  之間選擇  ​:有時會  ​ 被選擇,有時會被選擇​。我想我發現圖形混亂,因為我可能會想到的  重要性 的  ​ 恆定。考慮到其他變量的存在,我們已經掌握了每個變量的重要性。

實際上,我想到的是當我們考慮逐步過程時以及從集合中刪除每個變量時得到的結果,

apply(IMP,1,mean)}

在這里,如果我們使用與以前相同的代碼,

我們得到以下圖

plot(C,VI[2,],type="l",col="red")
lines(C,VI2[3,],col="blue")
lines(C,VI2[4,],col="purple")

刪除時會顯示紫線  ​ :這是最差的模型。我們保持​ 和時  ​,我們得到了藍線。而且這條線是恆定的:並不取決於  ​ (這在上一張圖中,有  ​ 確實會對​重要性產生影響)。紅線是移除后得到的  ​。關聯為0時,它與紫色線相同,因此模型很差。關聯度接近1時,與具有相同  ​,並且與藍線相同。

然而,當我們擁有很多相關特征時,討論特征的重要性並不是那么直觀。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM