R語言數據集分割

本文轉載自查看原文 2020-04-15 10:36 1519

好在R和Python中有現成的數據集分割函數，避免手動寫函數導致划分比例不合理、訓練集與測試集的樣本的結構與總體不均衡的問題。

R語言中caTools包中的sample.split函數可以用來自動將原始數據集分割成訓練集和測試集。

方法一 caTools中的sample.split函數

install.packages("caTools")
library("caTools")
set.seed(123)
data(iris)
table(iris$Species)
split = sample.split(iris$Species,SplitRatio = .8)
train_data = subset(iris,split == TRUE)
test_data  = subset(iris,split == FALSE)
table(train_data$Species)
table(test_data$Species)

划分方法二——createDataPartition函數

library("caret")
split1  <- createDataPartition(y=iris$Species,p=0.8,list = FALSE)

train_data <- iris[split1,]
table(train_data$Species)
test_data  <- iris[-split1,]
table(test_data$Species)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一、R語言—數據集創建 R語言相關數據集 R語言內置數據集語義分割與數據集 R語言randomForest包實現隨機森林——iris數據集和kyphosis數據集 R語言實戰（一）介紹、數據集與圖形初階 R語言對數據集進行排序 R語言實戰之創建數據集 R語言重要數據集分析研究——R語言數據集的字段含義 R自帶數據集