最近做項目接觸到了sklearn模塊,覺得非常好用,許多算法都已經實現了,還有很多實用功能,第一次接觸還是有些不熟悉,因此把學習到的內容記錄下來,以供自己或他人參考使用。
對於機器學習和sklearn也是才接觸不久,如果有錯誤之處,請指正。
簡介
官方API文檔:sklearn.model_selection
。這個模塊主要是對數據的分割,以及與數據划分相關的功能。會在哪里划分數據能,這里先說一下機器學習的流程,我對機器學習流程的理解為:
- 收集數據
- 選擇訓練的數據。並不是所有搜集到的數據都可能用到。
- 將數據划分為
訓練集
和測試集
- 選擇
模型
- 確定
模型
的參數
- 使用
測試集
評估模型
這其中涉及到兩次對於數據的划分,分別在步驟5和步驟6,這里使用兩幅圖可能容易理解一些:
-
有點像數據流圖
-
結合交叉驗證划分的圖
模塊
所有的模塊有以下這么多,這里我主要分成了5塊。
1、2、3 參考:https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation
5 參考: https://scikit-learn.org/stable/modules/learning_curve.html#learning-curve 和 https://blog.csdn.net/liujing319/article/details/86478574