機器學習可以分為三大類:監督學習、非監督學習、強化學習。
今天學習監督學習模型,根據輸出是連續的還是離散的,又分為 回歸問題 和 分類問題。
監督學習的訓練數據,都是帶‘答案’的,通過輸入和答案之間的對應關系,獲取其中的規則。
1,朴素貝葉斯分類器 Naive Bayes Classifier
假設樣本的特征(被觀察現象的一個可以測量的屬性)在給定分類的條件下是相互獨立的。
選擇重要的特性對於傳統的機器學習方法至關重要。
簡單來講這就是個概率計算 假設輸入 X = (x1,x2,...,xn) 在給定 x的條件下 分類Ck的概率: P(Ck|X) = ∏P(xi|Ck)P(Ck) / P(X)
解釋:給定X, P(X) 是一個固定的歸一化的常量,因此可以忽略;P(xi|Ck) 和 P(Ck) 是通過訓練數據集獲取計算來的;
這樣就可以計算給定條件X下的各個分類的概率,取概率最大的作為分類結果。
需要注意個細節: 如果 Xi 過多,相乘可能出現下溢(0),可以把乘法轉為取對數相加;對於訓練集中未出現的值的概率,可以忽略。
2,邏輯回歸 Logistic Regression
線性回歸模型: y = wTx + b
這個輸出范圍是 負無窮 到 正無窮
要轉換為分類問題,需要使用 Sigmoid 函數 σ(x) = 1 / (1 + e-x) 范圍 (0,1)
邏輯回歸模型:f(x) = 1 / (1 + e-(wTx + b))
然后使用 交叉熵損失函數 和 梯度下降優化算法, 根據訓練數據學習出最優 w 和 b
3,支持向量機 Support Vector Machine
對偶原理
SVM使用核函數來處理非線性的場景
4,未知 已經提交勘誤
5,決策樹
怎么構造的 ID3算法
ID3 算法使用的是 信息增益(information gain)來衡量分裂方法的好壞
信息增益:分裂后樹的信息 減去 分裂前樹的信息
信息: 熵 一個隨機變量x的熵定義為:H(x) = - ΣPi log2Pi
直到子樹的熵是0或者所有屬性都用過了,截止。
6,隨機森林 Random Forest
隨機選擇部分特性或者部分訓練數據,生成多個決策樹,最終投票選擇最終的決策樹。