機器學習（二）--- 分類算法詳解

本文轉載自查看原文 2017-01-12 09:58 28041 機器學習

感覺狼廠有些把機器學習和數據挖掘神話了，機器學習、數據挖掘的能力其實是有邊界的。機器學習、數據挖掘永遠是給大公司的業務錦上添花的東西，它可以幫助公司賺更多的錢，卻不能幫助公司在與其他公司的競爭中取得領先優勢，所以小公司招聘數據挖掘/機器學習不是為了裝逼就是在自尋死路。可是相比Java和C++語言開發來說，機器學習/數據挖掘確實是新一些老人占的坑少一些，而且可以經常接觸一些新的東西。還是趕緊再次抓住機會集中的再總結一下吧，不能再拖拖拉拉了。
其實數據挖掘的主要任務是分類、聚類、關聯分析、預測、時序模式和偏差分析。本文先系統的介紹一下機器學習中的分類算法，主要目錄如下：

常用分類算法

Bayes

貝葉斯分類法是基於貝葉斯定定理的統計學分類方法。它通過預測一個給定的元組屬於一個特定類的概率，來進行分類。朴素貝葉斯分類法假定一個屬性值在給定類的影響獨立於其他屬性的 —— 類條件獨立性。

朴素貝葉斯的優缺點

優點
1. 所需估計的參數少，對於缺失數據不敏感。
缺點
1. 假設屬性之間相互獨立，這往往並不成立。（喜歡吃番茄、雞蛋，卻不喜歡吃番茄炒蛋）。
2. 需要知道先驗概率。
3. 分類決策錯誤率。

朴素貝葉斯的公式

朴素貝葉斯求解：
$P (C | F 1, . . ., F n) = p ( C ) p ( F 1 , . . . , F n | C )$

Decision Tree

決策樹是一種簡單但廣泛使用的分類器，它通過訓練數據構建決策樹，對未知的數據進行分類。決策樹的每個內部節點表示在一個屬性上的測試，每個分枝代表該測試的一個輸出，而每個樹葉結點存放着一個類標號。
在決策樹算法中，ID3基於信息增益作為屬性選擇的度量，C4.5基於信息增益比作為屬性選擇的度量，CART基於基尼指數作為屬性選擇的度量。

決策樹代碼

決策樹的優缺點

優點
1. 不需要任何領域知識或參數假設。
2. 適合高維數據。
3. 簡單易於理解。
4. 短時間內處理大量數據，得到可行且效果較好的結果。
缺點
1. 對於各類別樣本數量不一致數據，信息增益偏向於那些具有更多數值的特征。
2. 易於過擬合。
3. 忽略屬性之間的相關性。
4. 不支持在線學習

決策樹公式

熵：
$E n t r o p y (S) = - \sum p i log p i$
信息增益：
$E n t r o p y (S, A) = E n t r o p y (S) - \sum v \in V (A) |$
分裂信息：
$S p l i t I n f o R = - \sum j = 1 k | D j | | D | log$
增益比率：
$G a i n R a t i o (R) = G a i n ( R ) S p l i t I n f o R ( D )$
基尼指數：
$G i n i (S) = 1 - \sum i m p 2 i$

SVM

支持向量機把分類問題轉化為尋找分類平面的問題，並通過最大化分類邊界點距離分類平面的距離來實現分類。

支持向量機的優缺點

優點
1. 可以解決小樣本下機器學習的問題。
2. 提高泛化性能。
3. 可以解決高維、非線性問題。超高維文本分類仍受歡迎。
4. 避免神經網絡結構選擇和局部極小的問題。
缺點
1. 缺失數據敏感。
2. 內存消耗大，難以解釋。
3. 運行和調差略煩人。

支持向量機的公式

轉自研究者July: SVM的求解，先導出

m a x 1 | | ω | | s . t . , y i ( ω T + b ) \geq 1 , i = 1 , .

這個問題等價於

m a x 1 | | ω | | 2 s . t . , y i ( ω T + b ) \geq 1 , i = 1

\partial L \partial ω = 0 ⟹ ω = \sum i = 1 n α i y i x i

\partial L \partial b = 0 ⟹ \sum i = 1 n α i y i = 0

L (ω, b, a) = 1 2 \sum i , j = 1 n α i α j y i y j x T i x j -

KNN

K近鄰的優缺點

優點
1. 暫無
缺點
1. 計算量太大
2. 對於樣本分類不均衡的問題，會產生誤判。

K近鄰的公式

Logistic Regression

邏輯回歸的優缺點

優點
1. 速度快。
2. 簡單易於理解，直接看到各個特征的權重。
3. 能容易地更新模型吸收新的數據。
4. 如果想要一個概率框架，動態調整分類閥值。
缺點
1. 特征處理復雜。需要歸一化和較多的特征工程。

邏輯回歸的公式

如果是連續的，那么就是多重線性回歸；如果是二項分布，就是Logistic回歸；如果是Poission分布，就是Poisson回歸；如果是負二項分布，那么就是負二項分布。
回歸問題常見步驟是：尋找h函數；構造J函數；想辦法使得J函數最小並求得回歸參數。邏輯回歸的h函數為：

θ j := θ j - α 1 m x T E

J (θ) = 1 2 m \sum i = 1 n ( h θ ( x i ) - y i ) 2 + λ \sum j =

邏輯回歸的問題

過擬合問題
1. 減少feature個數
2. 規格化

神經網絡

神經網絡的優缺點

優點
1. 分類准確率高。
2. 並行處理能力強。
3. 分布式存儲和學習能力強。
4. 魯棒性較強，不易受噪聲影響。
缺點
1. 需要大量參數（網絡拓撲、閥值、閾值）。
2. 結果難以解釋。
3. 訓練時間過長。

神經網絡公式

深度學習？？？

Ensemble learning

集成學習的思路是在對新的實例進行分類的時候，把多個單分類器的結果進行某種組合，來對最終的結果進行分類。
更好的數據往往打敗更好的算法，設計好的特征大有脾益。並且如果你有一個龐大的數據集，使用某種特定的算法的性能可能並不要緊。大可以挨個分類器嘗試，並且選取最好的一個。（可以多從易用性和性能考慮）
而且從Netfliex Prize的經驗教訓來看，嘗試各類分類器、交叉驗證、集成方法往往能取得更好的結果，一般的boosting>bagging>single classifier。集成學習的方法主要有一下三種：
1. 在樣本上做文章，基分類器為同一個分類算法，主要有bagging和boosting。
2. 在分類算法上做文章，即用於訓練基分類器的樣本相同。基分類器的算法不同。
3. 在樣本屬性集上做文章，即在不同的屬性上構建分類器，比較出名的是randomforest Tree的算法，這個有weka也有實現。
1998年Jerome Friedman & Trevor Hastie & Robert Tibshirani發表文章Additive Logistic Regression: a Statistical View of Boosting，中提到Bagging是一個純粹的降低相關度的方法。如果樹的節點具有很高的相關性，bagging就會有很好的效果。

GBDT

回歸樹類似決策樹，使用葉子節點的平均值作為判定的結果。如果不是葉子節點，那么就繼續向下尋找。GBDT幾乎可用於所有的回歸問題，亦可以適用於二分類問題。
GBDT使用新生成的樹來擬合之前的樹擬合的殘差。

Adaboost

Adaboost目的就是從訓練數據中學習一系列的弱分類器或基本分類器，然后將這些弱分類器組合成一個強分類器。
Adaboost的算法流程如下，首先初始化訓練數據的權值分布。每個訓練樣本最開始都被賦予相同的權重：1/N。計算Gm(x)在訓練數據集上的誤差率em就是被Gm(x)誤分類樣本的權值之和。計算Gm(x)的系數，am表示Gm(x)在最終分類器中的重要程度。

Random Forest

隨機森林指通過多顆決策樹聯合組成的預測模型，可以對樣本或者特征取bagging。

參考文獻

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習算法分類機器學習——算法分類機器學習算法分類機器學習——貝葉斯分類算法詳解機器學習分類算法評價指標機器學習常見算法分類匯總機器學習的分類與主要算法對比機器學習3-分類算法機器學習有關分類的算法機器學習分類算法之隨機森林