機器學習-常見的監督學習模型


機器學習可以分為三大類:監督學習、非監督學習、強化學習。

今天學習監督學習模型,根據輸出是連續的還是離散的,又分為 回歸問題 和 分類問題。 

監督學習的訓練數據,都是帶‘答案’的,通過輸入和答案之間的對應關系,獲取其中的規則。

1,朴素貝葉斯分類器 Naive Bayes Classifier

假設樣本的特征(被觀察現象的一個可以測量的屬性)在給定分類的條件下是相互獨立的。

選擇重要的特性對於傳統的機器學習方法至關重要。

簡單來講這就是個概率計算 假設輸入 X = (x1,x2,...,xn) 在給定 x的條件下 分類Ck的概率: P(Ck|X) = ∏P(xi|Ck)P(Ck) / P(X)

解釋:給定X, P(X) 是一個固定的歸一化的常量,因此可以忽略;P(xi|Ck) 和 P(Ck) 是通過訓練數據集獲取計算來的;

這樣就可以計算給定條件X下的各個分類的概率,取概率最大的作為分類結果。

需要注意個細節: 如果 Xi 過多,相乘可能出現下溢(0),可以把乘法轉為取對數相加;對於訓練集中未出現的值的概率,可以忽略。

2,邏輯回歸 Logistic Regression

線性回歸模型: y = wTx + b

這個輸出范圍是 負無窮 到 正無窮

要轉換為分類問題,需要使用 Sigmoid 函數  σ(x) = 1 / (1 + e-x)  范圍 (0,1)

邏輯回歸模型:f(x) = 1 / (1 + e-(wTx + b))

然后使用 交叉熵損失函數 和 梯度下降優化算法, 根據訓練數據學習出最優 w 和 b

 

3,支持向量機 Support Vector Machine

對偶原理

SVM使用核函數來處理非線性的場景

4,未知 已經提交勘誤

5,決策樹

怎么構造的 ID3算法

ID3 算法使用的是 信息增益(information gain)來衡量分裂方法的好壞 

信息增益:分裂后樹的信息 減去 分裂前樹的信息

信息: 熵 一個隨機變量x的熵定義為:H(x) = - ΣPlog2Pi

直到子樹的熵是0或者所有屬性都用過了,截止。

 

6,隨機森林 Random Forest

隨機選擇部分特性或者部分訓練數據,生成多個決策樹,最終投票選擇最終的決策樹。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM