機器學習過程主要包括:數據的特征提取、數據預處理、訓練模型、測試模型、模型評估改進等幾部分
傳統機器學習算法主要包括以下五類:
-
回歸:建立一個回歸方程來預測目標值,用於連續型分布預測
-
分類:給定大量帶標簽的數據,計算出未知標簽樣本的標簽取值
-
聚類:將不帶標簽的數據根據距離聚集成不同的簇,每一簇數據有共同的特征
-
關聯分析:計算出數據之間的頻繁項集合
-
降維:原高維空間中的數據點映射到低維度的空間中
1 線性回歸:找到一條直線預測目標值
2 邏輯回歸:找到一條直線來分類數據
3 KNN:用距離度量最相近鄰的分類標簽
4 NB:選着后驗概率最大的類為分類標簽
5 決策樹:構造一科熵值下降最快的分類樹
決策樹是一種樹型結構,其中每個內部結點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉結點代表一種類別。采用的是自頂向下的遞歸方法,選擇信息增益最大的特征作為當前的分裂特征。
6 SVM:構造超平面,分類非線性數據
7 k-means:計算質心,聚類無標簽數據
8 關聯分析
9 PCA降維:減少數據維度,降低數據復雜度