Sklearn-train_test_split隨機划分訓練集和測試集


sklearn.model_selection.train_test_split 

sklearn.model_selection. train_test_split *數組**選項[來源]

將數組或矩陣拆分為隨機序列和測試子集

包含輸入驗證和應用程序的快速實用程序, 用於將數據輸入到單個調用中,以便在oneliner中拆分(並可選地進行子采樣)數據。next(ShuffleSplit().split(X, y))

閱讀用戶指南中的更多內容

參數:

*數組:具有相同長度/形狀的可索引序列[0]

允許的輸入是列表,numpy數組,scipy-sparse矩陣或pandas數據幀。

test_size:float,int,None,optional

如果為float,則應介於0.0和1.0之間,並表示要包含在測試拆分中的數據集的比例。如果是int,則表示測試樣本的絕對數量。如果為None,則將該值設置為列車大小的補碼。默認情況下,該值設置為0.25。默認值將在版本0.21中更改。只有在train_size未指定時才會保持0.25 ,否則它將補充指定的train_size

train_size:float,int或None,默認為None

如果為float,則應介於0.0和1.0之間,並表示要包含在列車拆分中的數據集的比例。如果是int,則表示列車樣本的絕對數量。如果為None,則該值將自動設置為測試大小的補碼。

random_state:int,RandomState實例或None,可選(默認=無)

如果是int,則random_state是隨機數生成器使用的種子; 如果是RandomState實例,則random_state是隨機數生成器; 如果沒有,隨機數生成器所使用的RandomState實例np.random

shuffle:boolean,optional(default = True)

是否在拆分之前對數據進行洗牌。如果shuffle = False,則分層必須為None。

stratify:array-like或None(默認為None)

如果不是None,則數據以分層方式拆分,使用此作為類標簽。

返回:

拆分:列表,長度= 2 * len(數組)

包含列車測試輸入分組的列表。

版本0.16中的新增內容:如果輸入是稀疏的,則輸出將為a scipy.sparse.csr_matrix否則,輸出類型與輸入類型相同。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM