R語言-數據處理-樣本集划分


library(caret)

 1 > sIndex<-createDataPartition(outp$V1,p=0.7,list=FALSE)
 2 > outpTrain<-outp[sIndex]
 3 > outpTest<-outp[-sIndex]
 4 > describe(outpTrain)
 5 outpTrain 
 6        n  missing distinct     Info     Mean      Gmd      .05      .10 
 7      139        0      125        1    21.45    3.894    16.11    17.41 
 8      .25      .50      .75      .90      .95 
 9    19.19    21.66    23.54    25.62    27.20 
10 
11 lowest : 12.04 12.62 13.03 14.45 14.61, highest: 27.70 27.95 28.16 29.45 31.30
12 > describe(outpTest)
13 outpTest 
14        n  missing distinct     Info     Mean      Gmd      .05      .10 
15       56        0       55        1    21.75    3.586    16.99    17.48 
16      .25      .50      .75      .90      .95 
17    19.39    21.66    23.50    24.91    27.08 
18 
19 lowest : 15.75 16.03 16.78 17.06 17.41, highest: 26.15 26.97 27.41 28.58 32.30

PS:根據因變量特征值進行數據分區,outp$V1 其中outp為因變量列表,V1為特征值的name

按照p=0.7划分,訓練集占70%,測試集占30%,對划分的結果進行描述describe可知

訓練集 均值21.45  測試集均值21.75

但是有一點疑問,測試集最小5個數值均小於測試集最小值???,如何更均勻??


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM