第12章 統計學習方法總結

1 適用問題
分類問題是從實例的特征向量到類標記的預測問題;
標注問題
是從觀測序列到標記序列(或狀態序列)的預測問題。可以認為分類問題是標注
問題的特殊情況。
分類問題中可能的預測結果是二類或多類;
而標注問題中可能
的預測結果是所有的標記序列,其數目是指數級的。
感知機、k近鄰法、朴素貝葉斯法、決策樹是簡單的分類方法,具有模型直
觀、方法簡單、實現容易等特點;
邏輯斯諦回歸與最大熵模型、支持向量機、提
升方法是更復雜但更有效的分類方法,往往分類准確率更高;
隱馬爾可夫模型、
條件隨機場是主要的標注方法。通常條拌隨機場的標注准確率更事高。
2 模型
分類問題與標注問題的預測模型都可以認為是表示從輸入空間到輸出空間的
映射.它們可以寫成條件概率分布P(YIX)或決策函數Y=f(X)的形式。前者表
示給定輸入條件下輸出的概率模型,后者表示輸入到輸出的非概率模型。
朴素貝葉斯法、隱馬爾可夫模型是概率模型;感知機、k近鄰法、支持向量
機、提升方法是非概率模型;而決策樹、邏輯斯諦回歸與最大
熵
模型、條件隨機
場既可以看作是概率模型,又可以看作是非概率模型。
直接學習條件概率分布P(Y I X)或決策函數Y=f(X)的方法為判別方法,對
應的模型是判別模型:感知機、k近鄰法、決策樹、邏輯斯諦回歸與最大
熵
模型、
支持向量機、提升方法、條件隨機場是判別方法。
首先學習聯合概率分布P(X,Y),
從而求得條件概率分布P(Y|X)的方法是生成方法,對應的模型是生成模型:朴素
貝葉斯法、隱馬爾可夫模型是生成方法
。
決策樹是定義在一般的特征空間上的,可以含有連續變量或離散變量。感知
機、支持向量機、k近鄰法的特征空間是歐氏空間(更一般地,是希爾伯特空
間)。提升方法的模型是弱分類器的線性組合,弱分類器的特征空間就是提升方
法模型的特征空間。
感知機模型是線性模型;而邏輯斯諦回歸與最大
熵
模型、條件隨機場是對數
線性模型;k近鄰法、決策樹、支持向量機(包含核函數)、提升方法使用的是
非線性模型。

3 學習策略
在二類分類的監督學習中,支持向量機、邏輯斯諦回歸與最大
熵
模型、提升
方法各自使用合頁損失函數、邏輯斯諦損失函數、指數損失函數,
分別寫為

這3種損失函數都是0-1損失函數的上界,具有相似的形狀。

可以認為支持向量機、邏輯斯諦回歸與最大
熵
模型、提升方法使用不同的代理損
失函數(surrogateloas Punotion)表示分類的損失,定義經驗風險或結構風險函數,
實現二類分類學習任務。學習的策略是優化以下結構風險函數,

第1項為經驗風險(經驗損失),第2項為正則化項,L
為損失函
數,J(f)為模型的復雜度。
支持向量機用L
2范數表示模型的復雜度。原始的邏輯斯諦回歸與最大
熵
模型
沒有正則化項,可以給它們加上
L
2
范數正則化項。提升方法沒有顯式的正則化項,
通常通過早停止(early stopping)的方法達到正則化的效果。
概率模型的學習可以形式化為極大似然估計或貝葉斯估計的極大后驗概率
估計。學習的策略是極小化對數似然損失或極小化正則化的對數似然損
失。
極大后驗概率估計時,正則化項是先驗概率的負對數。
決策樹學習的策略是正則化的極大似然估計,損失函數是對數似然損失,正
則化項是決策樹的復雜度。
邏輯斯諦回歸與最大
熵
模型、條件隨機場的學習策略既可以看成是極大似然
估計(或正則化的極大似然估計),又可以看成是極小化邏輯斯諦損失(或正則
化的邏輯斯諦損失)。
朴素貝葉斯模型、隱馬爾可夫模型的非監督學習也是極大似然估計或極大后
驗概率估計,但這時模型含有隱變量。
4 學習算法
統計學習的問題有了具體的形式以后,就變成了最優化問題。
朴素貝葉斯法與隱馬爾可夫模型的監督學習,最優解即極大似然估計值,可
以由概率計算公式直接計算。
感知機、邏輯斯諦回歸與最大
熵
模型、條件隨機場的學習利用梯度下降法、
擬牛頓法等一般的無約束最優化問題的解法。
支持向量機學習,可以解凸二次規划的對偶問題。有序列最小最優化算法等
方法。
決策樹學習是基於啟發式算法的典型例子。可以認為特征選擇、生成、剪枝
是啟發式地進行正則化的極大似然估計。
提升方法利用學習的模型是加法模型、損失函數是指數損失函數的特點,啟
發式地從前向后逐步學習模型,以達到逼近優化目標函數的目的。
EM算法是一種迭代的求解含隱變量概率模型參數的方法,它的收斂性可以
保證,但是不能保證收斂到全局最優。
支持向量機學習、邏輯斯諦回歸與最大
熵
模型學習、條件隨機場學習是凸優
化問題,全局最優解保證存在。而其他學習問題則不是凸
優
化問題。