隨機划分
from sklearn.model_select import train_test_split
x_train, x_test, y_train,y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)
參數解釋:
x:被划分的樣本特征集
y:被划分的樣本標簽
test_size:如果是浮點數,在0-1之間,表示樣本占比;如果是整數的話就是樣本數量
random_state:隨機數的種子。可以看作是數據划分規則ID,取值范圍為0-2^32。等於0或None時可以理解為隨機分配一個整數給random_state,會導致每次運行結果不同。一般都會固定數值,防止運行結果不同。
比如有數據集[1,2,3,4,5,6,7,8,9],我們確定test_size=3,那問題是應該取哪三個數作為test set呢,這時候就應該使用random_state來確定隨機規則:random_state=1,它按一定的規則去取出數據;random_state=2時,它又換成另一種規則去取數據。