拓端tecdat|R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測

本文轉載自查看原文 2020-11-25 12:47 436 隨機森林/ CART回歸決策樹/ R語言/ 多分類logistic邏輯回歸

在本文中，我們使用了邏輯回歸、決策樹和隨機森林模型來對信用數據集進行分類預測並比較了它們的性能。數據集是

credit=read.csv("german_credit.csv", header = TRUE, sep = ",")

看起來所有變量都是數字變量，但實際上，大多數都是因子變量，

讓我們將分類變量轉換為因子變量，

現在讓我們創建比例為1：2 的訓練和測試數據集

我們可以擬合的第一個模型是對選定協變量的邏輯回歸

> LogisticModel <- glm(Creditability ~ Account.Balance + Payment.Status.of.Previous.Credit + Purpose +
Length.of.current.employment +
Sex...Marital.Status, family=binomia

基於該模型，可以繪制ROC曲線並計算AUC（在新的驗證數據集上）

一種替代方法是考慮所有解釋變量的邏輯回歸

我們可能在這里過擬合，可以在ROC曲線上觀察到

與以前的模型相比，此處略有改善，后者僅考慮了五個解釋變量。

現在考慮回歸樹模型（在所有協變量上）

我們可以使用

> prp(ArbreModel,type=2,extra=1)

模型的ROC曲線為

不出所料，與邏輯回歸相比，模型性能較低。一個自然的想法是使用隨機森林優化。

在這里，該模型（略）優於邏輯回歸。實際上，如果我們創建很多訓練/驗證樣本並比較AUC，平均而言，隨機森林的表現要比邏輯回歸好，

最受歡迎的見解

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 拓端數據tecdat|R語言邏輯回歸（Logistic回歸）模型分類預測病人冠心病風險拓端數據|R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析拓端tecdat|Python用決策樹分類預測糖尿病和可視化實例拓端數據tecdat|R語言懲罰logistic邏輯回歸（LASSO,嶺回歸）高維變量選擇的分類模型案例【R語言進行數據挖掘】決策樹和隨機森林拓端tecdat：R語言用加性多元線性回歸、隨機森林、彈性網絡模型預測鮑魚年齡和可視化拓端數據tecdat|R語言基於Bootstrap的線性回歸預測置信區間估計方法拓端tecdat|R語言邏輯回歸分析連續變量和分類變量之間的“相關性“ 拓端數據tecdat|R語言貝葉斯線性回歸和多元線性回歸構建工資預測模型【R語言學習筆記】1. CART 邏輯回歸、分類樹以及隨機森林的應用及對比