1. 機器學習中的常用分類器:回歸、分類(確定是哪一類)
1)線性回歸:根據給出的數據擬合出一條直線或曲線,反應數據的分布;
評判的准則或損失函數:統計所有預測值yi及對應實際值y之間的距離之和,使其最小化;
理解,參考:
- 線性回歸:https://blog.csdn.net/wade1203/article/details/96411653
- 三種回歸算法及其優缺點:https://blog.csdn.net/weixin_30333885/article/details/97678615?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight
- 多元線性回歸:https://blog.csdn.net/loveliuzz/article/details/78006493?utm_source=blogxgwz8
- 一元線性回歸:https://blog.csdn.net/qq_38238112/article/details/108011138
- 機器學習中6種常見的線性模型:https://blog.csdn.net/u013421629/article/details/103752384
- 機器學習中8種常見的非線性模型:https://blog.csdn.net/u013421629/article/details/103752407
- 人工智能社區:https://www.captainbed.net/qianyan/
2)邏輯(Logistic)回歸:是二分類問題,不是回歸問題;
它可以把輸出的值映射到0-1之間表示概率問題,如果中間設定某一閾值(比如0.5),大於0.5表示正類,小於0.5表示分類,即二分類問題;
softmax回歸:跟邏輯回歸一樣,是分類問題,不是回歸問題;只不過softmax針對的是多分類;
參考:https://www.cnblogs.com/yinheyi/p/6131262.html
3)SVM支持向量機:定義在特征空間上的線性分類器,是一種二分類模型;
超平面:分類的決策邊界;
支持向量:在SVM中,希望找到的離分隔超平面最近的點,確保他們離分隔超平面的距離盡可能的遠;
參考:https://blog.csdn.net/gwplovekimi/article/details/80301614
4)貝葉斯分類器
參考:https://www.cnblogs.com/NewBee-CHH/p/9770914.html
5)K近鄰(KNN):是一種有監督分類算法;前提是:訓練的數據集有類別標簽;
1)計算測試數據與各個訓練數據之間的距離;
2)按照距離的遞增關系進行排序;
3)選取距離最小的K個點;
4)確定前K個點所在類別的出現頻率;
5)返回前K個點中出現頻率最高的類別作為測試數據的預測分類
6)決策樹
根節點、非葉子節點(決策點)、葉子節點、分支;
6.1)決策樹-熵
事件發生的概率越大,它的不確定性越小;
決策樹-熵: 熵 = -ΣPi*In(Pi)
A中的類別比較多,每個的類別的概率比較小,熵值比較大;B中的類別比較少時,每個的類別的概率比較大,熵值比較小.
Gini系數: Gini(p) = ΣPi*(1-Pi) = 1- ΣPi2
6.2) 根節點如何選取?
決策樹的基本思想:隨着樹深度的加深,節點的熵迅速降低,熵降低的速度越快越好,這樣有望得到一顆高度最矮的決策樹;
熵A=沒有任何操作的情況下,僅根據歷史標簽的分類概率求出的熵值;
熵B=選擇某一種情況作為根節點是,所求出的熵值;
信息增益:= 熵A - 熵B; 信息增益越大越好,分類后的數據越純;比如:ID3
根節點的選擇:是那個使信息增益值最大,就選那個當成根節點;
6.3) 信息增益率:防止當數據比較稀疏時,信息增益特別大,出現過擬合;例如用ID號當分類節點時,每個類為葉子節點,熵值為0,信息增益是原始的熵值A,信息增益值最大,顯然此時若選擇ID號作為根節點顯然不合適,為此引入信息增益率來判定根節點選擇;
評價函數:類似於目標函數,使其風險代價最小;
7)集成模型