sklearn之划分數據集


 

隨機划分

from sklearn.model_select import train_test_split

x_train, x_test, y_train,y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)

 

參數解釋:

x:被划分的樣本特征集

y:被划分的樣本標簽

test_size:如果是浮點數,在0-1之間,表示樣本占比;如果是整數的話就是樣本數量

random_state:隨機數的種子。可以看作是數據划分規則ID,取值范圍為0-2^32。等於0或None時可以理解為隨機分配一個整數給random_state,會導致每次運行結果不同。一般都會固定數值,防止運行結果不同。

比如有數據集[1,2,3,4,5,6,7,8,9],我們確定test_size=3,那問題是應該取哪三個數作為test set呢,這時候就應該使用random_state來確定隨機規則:random_state=1,它按一定的規則去取出數據;random_state=2時,它又換成另一種規則去取數據。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM