sklearn之划分數據集

本文轉載自查看原文 2019-11-01 18:18 552 機器學習算法

隨機划分

from sklearn.model_select import train_test_split

x_train, x_test, y_train，y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)

參數解釋：

x：被划分的樣本特征集

y：被划分的樣本標簽

test_size：如果是浮點數，在0-1之間，表示樣本占比；如果是整數的話就是樣本數量

random_state：隨機數的種子。可以看作是數據划分規則ID，取值范圍為0-2^32。等於0或None時可以理解為隨機分配一個整數給random_state，會導致每次運行結果不同。一般都會固定數值，防止運行結果不同。

比如有數據集[1,2,3,4,5,6,7,8,9],我們確定test_size=3,那問題是應該取哪三個數作為test set呢，這時候就應該使用random_state來確定隨機規則：random_state=1，它按一定的規則去取出數據；random_state=2時，它又換成另一種規則去取數據。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sklearn 划分數據集。 sklearn數據集划分使用Sklearn-train_test_split 划分數據集 Pytorch划分數據集的方法使用python划分數據集 sklearn數據集的導入及划分 sklearn中的數據集的划分 TensorFlow2.0——划分數據集 sklearn之分類模型數據集的划分問題數據集的划分