機器學習中的常用分類器


1. 機器學習中的常用分類器:回歸、分類(確定是哪一類)

1)線性回歸:根據給出的數據擬合出一條直線或曲線,反應數據的分布;

評判的准則或損失函數:統計所有預測值yi及對應實際值y之間的距離之和,使其最小化;

理解,參考:

  •  線性回歸:https://blog.csdn.net/wade1203/article/details/96411653
  •  三種回歸算法及其優缺點:https://blog.csdn.net/weixin_30333885/article/details/97678615?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight
  • 多元線性回歸:https://blog.csdn.net/loveliuzz/article/details/78006493?utm_source=blogxgwz8
  • 一元線性回歸:https://blog.csdn.net/qq_38238112/article/details/108011138
  • 機器學習中6種常見的線性模型:https://blog.csdn.net/u013421629/article/details/103752384
  • 機器學習中8種常見的非線性模型:https://blog.csdn.net/u013421629/article/details/103752407
  • 人工智能社區:https://www.captainbed.net/qianyan/

2)邏輯(Logistic)回歸:是二分類問題,不是回歸問題;

     它可以把輸出的值映射到0-1之間表示概率問題,如果中間設定某一閾值(比如0.5),大於0.5表示正類,小於0.5表示分類,即二分類問題;

    softmax回歸:跟邏輯回歸一樣,是分類問題,不是回歸問題;只不過softmax針對的是多分類;

參考:https://www.cnblogs.com/yinheyi/p/6131262.html

3)SVM支持向量機:定義在特征空間上的線性分類器,是一種二分類模型;

超平面:分類的決策邊界;

支持向量:在SVM中,希望找到的離分隔超平面最近的點,確保他們離分隔超平面的距離盡可能的遠;

參考:https://blog.csdn.net/gwplovekimi/article/details/80301614

4)貝葉斯分類器

 參考:https://www.cnblogs.com/NewBee-CHH/p/9770914.html

5)K近鄰(KNN):是一種有監督分類算法;前提是:訓練的數據集有類別標簽;

       1)計算測試數據與各個訓練數據之間的距離;

  2)按照距離的遞增關系進行排序;

  3)選取距離最小的K個點;

  4)確定前K個點所在類別的出現頻率;

  5)返回前K個點中出現頻率最高的類別作為測試數據的預測分類

6)決策樹

 根節點、非葉子節點(決策點)、葉子節點、分支;

6.1)決策樹-熵

事件發生的概率越大,它的不確定性越小;

決策樹-熵: 熵 = -ΣPi*In(Pi)

A中的類別比較多,每個的類別的概率比較小,熵值比較大;B中的類別比較少時,每個的類別的概率比較大,熵值比較小.

Gini系數: Gini(p) = ΣPi*(1-Pi) = 1- ΣPi2

6.2) 根節點如何選取?

決策樹的基本思想:隨着樹深度的加深,節點的熵迅速降低,熵降低的速度越快越好,這樣有望得到一顆高度最矮的決策樹;

   熵A=沒有任何操作的情況下,僅根據歷史標簽的分類概率求出的熵值;

    熵B=選擇某一種情況作為根節點是,所求出的熵值;

信息增益:= 熵A - 熵B;  信息增益越大越好,分類后的數據越純;比如:ID3

根節點的選擇:是那個使信息增益值最大,就選那個當成根節點;

6.3) 信息增益率:防止當數據比較稀疏時,信息增益特別大,出現過擬合;例如用ID號當分類節點時,每個類為葉子節點,熵值為0,信息增益是原始的熵值A,信息增益值最大,顯然此時若選擇ID號作為根節點顯然不合適,為此引入信息增益率來判定根節點選擇;

評價函數:類似於目標函數,使其風險代價最小;

7)集成模型


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM