sklearn.model_selection
.train_test_split
-
sklearn.model_selection.
train_test_split
(*數組,**選項)[來源] -
將數組或矩陣拆分為隨機序列和測試子集
包含輸入驗證和應用程序的快速實用程序, 用於將數據輸入到單個調用中,以便在oneliner中拆分(並可選地進行子采樣)數據。
next(ShuffleSplit().split(X, y))
閱讀用戶指南中的更多內容。
參數: *數組:具有相同長度/形狀的可索引序列[0]
允許的輸入是列表,numpy數組,scipy-sparse矩陣或pandas數據幀。
test_size:float,int,None,optional
如果為float,則應介於0.0和1.0之間,並表示要包含在測試拆分中的數據集的比例。如果是int,則表示測試樣本的絕對數量。如果為None,則將該值設置為列車大小的補碼。默認情況下,該值設置為0.25。默認值將在版本0.21中更改。只有在
train_size
未指定時才會保持0.25 ,否則它將補充指定的train_size
。train_size:float,int或None,默認為None
如果為float,則應介於0.0和1.0之間,並表示要包含在列車拆分中的數據集的比例。如果是int,則表示列車樣本的絕對數量。如果為None,則該值將自動設置為測試大小的補碼。
random_state:int,RandomState實例或None,可選(默認=無)
如果是int,則random_state是隨機數生成器使用的種子; 如果是RandomState實例,則random_state是隨機數生成器; 如果沒有,隨機數生成器所使用的RandomState實例np.random。
shuffle:boolean,optional(default = True)
是否在拆分之前對數據進行洗牌。如果shuffle = False,則分層必須為None。
stratify:array-like或None(默認為None)
如果不是None,則數據以分層方式拆分,使用此作為類標簽。
返回: 拆分:列表,長度= 2 * len(數組)
包含列車測試輸入分組的列表。
版本0.16中的新增內容:如果輸入是稀疏的,則輸出將為a
scipy.sparse.csr_matrix
。否則,輸出類型與輸入類型相同。