統計學習方法李航---第12章統計學習方法總結

本文轉載自查看原文 2015-08-28 20:22 2455 機器學習

第12章統計學習方法總結

分類問題是從實例的特征向量到類標記的預測問題；標注問題是從觀測序列到標記序列(或狀態序列)的預測問題。可以認為分類問題是標注問題的特殊情況。

分類問題中可能的預測結果是二類或多類；而標注問題中可能的預測結果是所有的標記序列，其數目是指數級的。

感知機、k近鄰法、朴素貝葉斯法、決策樹是簡單的分類方法，具有模型直觀、方法簡單、實現容易等特點；

邏輯斯諦回歸與最大熵模型、支持向量機、提升方法是更復雜但更有效的分類方法，往往分類准確率更高；

隱馬爾可夫模型、條件隨機場是主要的標注方法。通常條拌隨機場的標注准確率更事高。

分類問題與標注問題的預測模型都可以認為是表示從輸入空間到輸出空間的映射.它們可以寫成條件概率分布P(YIX)或決策函數Y=f(X)的形式。前者表示給定輸入條件下輸出的概率模型，后者表示輸入到輸出的非概率模型。

朴素貝葉斯法、隱馬爾可夫模型是概率模型；感知機、k近鄰法、支持向量機、提升方法是非概率模型；而決策樹、邏輯斯諦回歸與最大熵模型、條件隨機場既可以看作是概率模型，又可以看作是非概率模型。

直接學習條件概率分布P(Y I X)或決策函數Y=f(X)的方法為判別方法，對應的模型是判別模型：感知機、k近鄰法、決策樹、邏輯斯諦回歸與最大熵模型、支持向量機、提升方法、條件隨機場是判別方法。

首先學習聯合概率分布P(X,Y)，從而求得條件概率分布P(Y|X)的方法是生成方法，對應的模型是生成模型：朴素貝葉斯法、隱馬爾可夫模型是生成方法。

決策樹是定義在一般的特征空間上的，可以含有連續變量或離散變量。感知機、支持向量機、k近鄰法的特征空間是歐氏空間(更一般地，是希爾伯特空間)。提升方法的模型是弱分類器的線性組合，弱分類器的特征空間就是提升方法模型的特征空間。

感知機模型是線性模型；而邏輯斯諦回歸與最大熵模型、條件隨機場是對數線性模型；k近鄰法、決策樹、支持向量機(包含核函數)、提升方法使用的是非線性模型。

在二類分類的監督學習中，支持向量機、邏輯斯諦回歸與最大熵模型、提升方法各自使用合頁損失函數、邏輯斯諦損失函數、指數損失函數，分別寫為

這3種損失函數都是0-1損失函數的上界，具有相似的形狀。

可以認為支持向量機、邏輯斯諦回歸與最大熵模型、提升方法使用不同的代理損失函數(surrogateloas Punotion)表示分類的損失，定義經驗風險或結構風險函數，實現二類分類學習任務。學習的策略是優化以下結構風險函數，

第1項為經驗風險(經驗損失)，第2項為正則化項，L 為損失函數，J(f)為模型的復雜度。

支持向量機用L ₂范數表示模型的復雜度。原始的邏輯斯諦回歸與最大熵模型沒有正則化項，可以給它們加上 L ₂ 范數正則化項。提升方法沒有顯式的正則化項，通常通過早停止(early stopping)的方法達到正則化的效果。

概率模型的學習可以形式化為極大似然估計或貝葉斯估計的極大后驗概率估計。學習的策略是極小化對數似然損失或極小化正則化的對數似然損失。極大后驗概率估計時，正則化項是先驗概率的負對數。

決策樹學習的策略是正則化的極大似然估計，損失函數是對數似然損失，正則化項是決策樹的復雜度。

邏輯斯諦回歸與最大熵模型、條件隨機場的學習策略既可以看成是極大似然估計(或正則化的極大似然估計)，又可以看成是極小化邏輯斯諦損失(或正則化的邏輯斯諦損失)。

朴素貝葉斯模型、隱馬爾可夫模型的非監督學習也是極大似然估計或極大后驗概率估計，但這時模型含有隱變量。

統計學習的問題有了具體的形式以后，就變成了最優化問題。

朴素貝葉斯法與隱馬爾可夫模型的監督學習，最優解即極大似然估計值，可以由概率計算公式直接計算。

感知機、邏輯斯諦回歸與最大熵模型、條件隨機場的學習利用梯度下降法、擬牛頓法等一般的無約束最優化問題的解法。

支持向量機學習，可以解凸二次規划的對偶問題。有序列最小最優化算法等方法。

決策樹學習是基於啟發式算法的典型例子。可以認為特征選擇、生成、剪枝是啟發式地進行正則化的極大似然估計。

提升方法利用學習的模型是加法模型、損失函數是指數損失函數的特點，啟發式地從前向后逐步學習模型，以達到逼近優化目標函數的目的。

EM算法是一種迭代的求解含隱變量概率模型參數的方法，它的收斂性可以保證，但是不能保證收斂到全局最優。

支持向量機學習、邏輯斯諦回歸與最大熵模型學習、條件隨機場學習是凸優化問題，全局最優解保證存在。而其他學習問題則不是凸優化問題。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 李航-統計學習方法-筆記-12：總結統計學習方法李航---第1章統計學習方法概論李航-統計學習方法-筆記-8：提升方法李航-統計學習方法-筆記-3：KNN 李航《統計學習方法》總覽李航-統計學習方法-筆記-1：概論《統計學習方法（李航）》講義第08章提升方法統計學習方法李航---第7章支持向量機統計學習方法李航---第11章條件隨機場《統計學習方法（李航）》講義第07章支持向量機