train_test_split數據切分


train_test_split 數據切分

格式:

X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)

 

參數解釋:
train_data:去除label的數據集!!!!
train_target:label集合!!!!
test_size:樣本占比,如果是整數的話就是樣本的數量
random_state:是隨機數的種子。
隨機數種子:其實就是該組隨機數的編號,在需要重復試驗的時候,保證得到一組一樣的隨機數。比如你每次都填1,其他參數一樣的情況下你得到的隨機數組是一樣的。但填0或不填,每次都會不一樣。
隨機數的產生取決於種子,隨機數和種子之間的關系遵從以下兩個規則:種子不同,產生不同的隨機數;種子相同,即使實例不同也產生相同的隨機數。

 

樣例:

原始數據data,最后一列為標簽label(也可以放在第一行)

data=[[1 0 0 ... 1 0 6]
          [0 1 0 ... 0 0 9]

                    ...
          [0 0 0 ... 1 0 6]
          [0 1 0 ... 0 1 9]]

 

train_data=[[1 0 0 ... 1 0 ]
                  [0 1 0 ... 0 0 ]

          ...
                  [0 0 0 ... 1 0 ]
                  [0 1 0 ... 0 1 ]]

train_target=[6 9  ... 6 9]

 

利用切分函數train_test_split得到,訓練集如下,測試集於此類似

X_train=[[1 0 0 ... 1 0 ]
               [0 1 0 ... 0 0 ]

                        ...
               [0 1 0 ... 0 1 ]]

y_train=[6 9 ... 9]

 

 

 

 

 

 

 

 

 

 


參考:https://blog.csdn.net/mrxjh/article/details/78481578 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM