train_test_split 數據切分
格式:
X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)
參數解釋:
train_data:去除label的數據集!!!!
train_target:label集合!!!!
test_size:樣本占比,如果是整數的話就是樣本的數量
random_state:是隨機數的種子。
隨機數種子:其實就是該組隨機數的編號,在需要重復試驗的時候,保證得到一組一樣的隨機數。比如你每次都填1,其他參數一樣的情況下你得到的隨機數組是一樣的。但填0或不填,每次都會不一樣。
隨機數的產生取決於種子,隨機數和種子之間的關系遵從以下兩個規則:種子不同,產生不同的隨機數;種子相同,即使實例不同也產生相同的隨機數。
樣例:
原始數據data,最后一列為標簽label(也可以放在第一行)
data=[[1 0 0 ... 1 0 6]
[0 1 0 ... 0 0 9]
...
[0 0 0 ... 1 0 6]
[0 1 0 ... 0 1 9]]
train_data=[[1 0 0 ... 1 0 ]
[0 1 0 ... 0 0 ]
...
[0 0 0 ... 1 0 ]
[0 1 0 ... 0 1 ]]
train_target=[6 9 ... 6 9]
利用切分函數train_test_split得到,訓練集如下,測試集於此類似
X_train=[[1 0 0 ... 1 0 ]
[0 1 0 ... 0 0 ]
...
[0 1 0 ... 0 1 ]]
y_train=[6 9 ... 9]
參考:https://blog.csdn.net/mrxjh/article/details/78481578