一、機器學習模型按照可使用的數據類型分為監督學習和無監督學習兩大類。
1-監督學習主要包括用於分類和用於回歸的模型:
1)分類:線性分類器(如LR)、支持向量機(SVM)、朴素貝葉斯(NB)、K近鄰(KNN)、決策樹(DT)、集成模型(RF/GDBT等)
2)回歸:線性回歸、支持向量機(SVM)、K近鄰(KNN)、回歸樹(DT)、集成模型(ExtraTrees/RF/GDBT)
2-無監督學習主要包括:數據聚類(K-means)/ 數據降維(PCA)等等.
二、根據模型特性而言:
1-各個模型分別基於哪些數學假設、適合處理什么樣的數據、優缺點、評測指標及其計算方法
模型名稱 | 數學假設 | 模型優缺點 | 評測指標及其計算方法 |
LR | 假設特征與分類結果存在線性關系 使用sigmoid函數映射到0-1 |
與隨機梯度上升算法相比,預測精度准確, 但是耗費時間長 |
准確性(Accuracy) 召回率(Recall) 精確率(Precision)以及F1 |
NB | 各個維度上的特征被分類的條件概 率之間是相互獨立的、貝葉斯公式 |
廣泛用於文本分類 優點:速度快,參數估計的個數銳減 缺點:在特征關聯性較強的任務性能差 |
同上 |
集成模型 | 訓練多個模型 RF---bagging GDBT----boosting 模型融合相關內容 |
優點:性能高、穩定性強、廣泛應用於工業界 缺點:訓練時間長,調參是體力活 xgb、lightGBM是比較快的 |
同上 |
回歸相關的模型 | SVM有三種核函數(linear/poly/rbf) | R^2/MAE/MSE/RMSE |