機器學習中的常用分類器

本文轉載自查看原文 2020-01-18 16:41 3245

1. 機器學習中的常用分類器：回歸、分類（確定是哪一類）

1）線性回歸：根據給出的數據擬合出一條直線或曲線，反應數據的分布；

評判的准則或損失函數：統計所有預測值yi及對應實際值y之間的距離之和，使其最小化；

理解，參考：

線性回歸：https://blog.csdn.net/wade1203/article/details/96411653
三種回歸算法及其優缺點：https://blog.csdn.net/weixin_30333885/article/details/97678615?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight
多元線性回歸：https://blog.csdn.net/loveliuzz/article/details/78006493?utm_source=blogxgwz8
一元線性回歸：https://blog.csdn.net/qq_38238112/article/details/108011138
機器學習中6種常見的線性模型：https://blog.csdn.net/u013421629/article/details/103752384
機器學習中8種常見的非線性模型：https://blog.csdn.net/u013421629/article/details/103752407
人工智能社區：https://www.captainbed.net/qianyan/

2）邏輯(Logistic)回歸：是二分類問題，不是回歸問題；

它可以把輸出的值映射到0-1之間表示概率問題，如果中間設定某一閾值（比如0.5），大於0.5表示正類，小於0.5表示分類，即二分類問題；

softmax回歸：跟邏輯回歸一樣，是分類問題，不是回歸問題；只不過softmax針對的是多分類；

參考：https://www.cnblogs.com/yinheyi/p/6131262.html

3）SVM支持向量機：定義在特征空間上的線性分類器，是一種二分類模型；

超平面：分類的決策邊界；

支持向量：在SVM中，希望找到的離分隔超平面最近的點，確保他們離分隔超平面的距離盡可能的遠；

參考：https://blog.csdn.net/gwplovekimi/article/details/80301614

4）貝葉斯分類器

參考：https://www.cnblogs.com/NewBee-CHH/p/9770914.html

5）K近鄰（KNN）:是一種有監督分類算法；前提是：訓練的數據集有類別標簽；

1）計算測試數據與各個訓練數據之間的距離；

　　2）按照距離的遞增關系進行排序；

　　3）選取距離最小的K個點；

　　4）確定前K個點所在類別的出現頻率；

　　5）返回前K個點中出現頻率最高的類別作為測試數據的預測分類

6）決策樹

根節點、非葉子節點（決策點）、葉子節點、分支；

6.1）決策樹-熵

事件發生的概率越大，它的不確定性越小；

決策樹-熵：熵 = -ΣPi*In(Pi)

A中的類別比較多，每個的類別的概率比較小，熵值比較大；B中的類別比較少時，每個的類別的概率比較大，熵值比較小.

Gini系數： Gini(p) = ΣPi*(1-Pi) = 1- ΣPi²

6.2) 根節點如何選取？

決策樹的基本思想：隨着樹深度的加深，節點的熵迅速降低，熵降低的速度越快越好，這樣有望得到一顆高度最矮的決策樹；

熵A=沒有任何操作的情況下，僅根據歷史標簽的分類概率求出的熵值；

熵B=選擇某一種情況作為根節點是，所求出的熵值；

信息增益：= 熵A - 熵B; 信息增益越大越好，分類后的數據越純；比如：ID3

根節點的選擇：是那個使信息增益值最大，就選那個當成根節點；

6.3）信息增益率：防止當數據比較稀疏時，信息增益特別大，出現過擬合；例如用ID號當分類節點時，每個類為葉子節點，熵值為0，信息增益是原始的熵值A，信息增益值最大，顯然此時若選擇ID號作為根節點顯然不合適，為此引入信息增益率來判定根節點選擇；

評價函數：類似於目標函數，使其風險代價最小；

7）集成模型

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習中如何選擇分類器機器學習——朴素貝葉斯分類器機器學習：基於關聯規則的多標簽分類器 Python機器學習筆記(1)——貝葉斯分類器—MultinomialNB 機器學習系列-最近鄰分類器 Python機器學習(5)——朴素貝葉斯分類器機器學習sklearn分類器算法機器學習-分類器-級聯分類器訓練（Train CascadeClassifier ）關於機器學習中線性分類器與非線性分類器的幾點思考機器學習：eclipse中調用weka的Classifier分類器代碼Demo