李航-統計學習方法-筆記-12:總結


10種統計學習方法特點的概括總結

本書共介紹了10種主要的統計學習方法:感知機,KNN,朴素貝葉斯,決策樹,邏輯斯諦回歸與最大熵模型,SVM,提升方法,EM算法,隱馬爾可夫模型,條件隨機場(CRF)。

適用問題

感知機,KNN,朴素貝葉斯,決策樹,邏輯斯諦回歸與最大熵模型,SVM,提升方法是分類方法。

原始的感知機,SVM以及提升方法是針對二分類的,可以將它們擴展到多類。

感知機,KNN,朴素貝葉斯,決策樹是簡單的分類方法,具有模型直觀,方法簡單,實現容易等特點。

邏輯斯底回歸與最大熵模型,SVM和boosting是更復雜但更有效的分類方法,往往分類准確率更高。

EM算法是含有隱變量的概率模型的一般學習算法,可用於生成模型的非監督學習。

隱馬和CRF是主要的標注方法。通常CRF標注准確率更高。

模型

朴素貝葉斯和隱馬是概率模型。感知機,KNN,SVM,boosting是非概率模型。決策樹,邏輯斯諦回歸與最大熵模型,條件隨機場既可以看作概率模型,也可以看作非概率模型。

朴素貝葉斯和隱馬是生成模型。其它算法(除了EM算法)是判別模型。EM算法是一般方法,不具有具體模型(不屬於生成模型也不屬於判別模型)。

感知機是線性模型。邏輯斯諦回歸,最大熵模型,CRF是對數線性模型。KNN,決策樹,SVM,boosting使用的是非線性模型。

學習策略

二分類學習中,SVM,邏輯斯諦回歸與最大熵模型,提升方法各自使用合頁損失,邏輯斯諦損失函數,指數損失函數。

\[[1-yf(x)]_+ \]

\[\log [1+exp(-yf(x))] \]

\[exp(-yf(x)) \]

這3種損失都是0-1損失的上界,具有相似的形狀。可認為三種模型使用不同的代理損失表示分類損失。

定義如下結構風險

\[\min_{f \in H} \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i)) + \lambda J(f) \]

SVM用\(L_2\)范數表示模型復雜度。
原始的邏輯斯諦回歸與最大熵模型沒有正則化項,可以給它們加上\(L_2\)范數。
提升方法沒有顯式的正則化項,通過通過早停止(early stopping)的方法達到正則化的效果。

概率模型的學習可以形式化為極大似然估計或貝葉斯估計的極大后驗概率估計。這時,學習的策略是極小化(正則化的)對數似然損失。對數似然損失可以寫成

\[- \log P(y \ | \ x) \]

學習算法

統計學習的問題有了具體形式后,就成了最優化問題。有時,最優化問題比較簡單,解析解存在,最優解可以由公式簡單計算。但多數情況下,最優化問題沒有解析解,需要數值計算或啟發式的方法求解。

朴素貝葉斯和隱馬的監督學習,最優解即極大似然估計值,可由概率計算公式直接計算。

感知機,邏輯斯諦回歸與最大熵模型,CRF的學習用梯度下降法,擬牛頓法,這些都是一般的無約束優化問題的解法。

SVM學習,可解凸二次規划的對偶問題,有SMO等方法。

決策樹是基於啟發式算法的典型例子。可以認為特征選擇,生成,剪枝是啟發式進行正則化的極大似然估計。

boosting利用學習的模型是加法模型,損失函數是指數函數的特點,啟發式地從前向后逐步學習模型,以達到逼近優化目標函數的目的。

EM算法是一種迭代的求解含因變量概率模型參數的方法,它的收斂性可以保證,但不能保證收斂到全局最優。

SVM,邏輯斯諦回歸與最大熵模型,CRF是凸優化問題,全局最優解保證存在。而其它學習問題則不是凸優化問題。

啟發式:解決問題時基於直覺或經驗構造的算法。它是相對於最優化算法提出的。

復雜的最優化問題往往存在很大的問題空間,要話費大量時間精力才能求得答案。

啟發式方法則是在有限的搜索空間內,大大減少嘗試的數量,在可接受花費下給出問題的可行解,可行解與最優解的偏離程度一般不能被預計。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM