支持向量機（SVM）原理闡述

本文轉載自查看原文 2019-02-12 18:18 1124 機器學習讀書筆記/ ML

支持向量機（Support Vector Machine, SVM）是一種二分類模型。給定訓練集D = {(x₁,y₁), (x₂,y₂), ..., (x_m,y_m)}，分類學習的最基本的想法即是找到一個超平面S：，從而將訓練集D的樣本空間中不同類別的樣本區分開。

SVM的模型，由簡至繁地，包括：線性可分支持向量機（linear SVM in linearly separable case）、線性支持向量機（linear SVM）以及非線性支持向量機（non-linear SVM）。

當訓練數據線性可分時，SVM試圖尋找硬間隔最大化（hard margin maximization）的划分超平面，因為這樣的超平面產生的分類結果是最魯棒的，由此學習的線性分類器稱為線性可分支持向量機；而當訓練數據近似線性可分時，通過軟間隔最大化（soft margin maximization），也可學習得到分類器，稱為線性支持向量機；當數據線性不可分時，則可以使用核技巧（kernel methods）以及軟間隔最大化，習得非線性支持向量機。“間隔、”核技巧“等相關概念均將在下文中予以闡述。

一、線性可分支持向量機

1.1 間隔與支持向量

如前文所述，划分超平面可以用線性方程來描述，其中ω為法向量，b為位移。於是，划分超平面可以由ω和b確定，記為(ω, b)。利用高中解析幾何的相關知識容易推算出，樣本空間中任意點到超平面(ω, b)的距離即為

由於若超平面(ω', b')可以對樣本正確分類，則對於(x_i,y_i)，若y_i=+1，則；若y_i=-1，則。令

則總存在縮放變換ςω→ω',ςb→b'使得上式成立。由此，定義”支持向量“（support vector）為滿足上式且距離超平面最近的點。兩個異類支持向量到超平面的距離之和被稱為”間隔“（margin），為。順便一提，所謂樣本都必須划分正確的情形稱為“硬間隔”（hard margin），而“軟間隔”（soft margin）則允許某些樣本不滿足。

SVM的任務是找到”最大間隔“（maximum margin）的划分超平面。於是，SVM的基本型可以表達為

進而可以寫為

值得注意的是，間隔貌似只與ω有關，但事實上，b通過約束隱式地影響着ω的取值，進而對間隔產生影響。

1.2 對偶問題與SMO算法

為求解得到最大間隔划分超平面的模型，一種高效的辦法是利用lagrange乘子法得到SVM基本型的”對偶問題“（dual problem），再利用SMO算法求解。

首先，在基本型中，對每條約束添加lagrange乘子，得到lagrange函數為

為取到函數的最值，令L(ω,b,α)對ω和b分別求偏導為零，得到

代入L(ω,b,α)，消去ω和b，即得到SVM基本型的對偶問題

且上述過程需要滿足KKT條件，即要求

直接用二次規划算法來求解對偶問題，開銷較大。比較高效的是SMO算法（Sequential Minimal Optimization）。

SMO首先初始化參數，然后不斷執行下述步驟直至收斂：

選取一對需要更新的α_i和α_j；
固定α_i和α_j以外的參數，求解上式獲得更新后的α_i和α_j。

最后，由，可以確定偏移項b為

1.3 核函數

如果原始樣本空間中不存在可以正確划分樣本的超平面，則可以將樣本從原始空間映射到更高維的特征空間，使得樣本在此特征空間內線性可分。事實上，若原始空間是有限維的，則一定存在一個更高維的空間使樣本線性可分。

令Φ(x)表示將x映射后的特征向量，則在特征空間中，划分超平面對應的模型可表示為。於是得到基本型

及其對偶問題

直接計算Φ(x_i)^TΦ(x_j)通常比較困難，為此，引入”核函數“（kernel function）k(•,•)。設k(x_i, x_j) = <Φ(x_i), Φ(x_j)> = Φ(x_i)^TΦ(x_j)，則對偶問題可以重寫為

求解后即得到

此展式亦稱為”支持向量展式“（support vector expansion）。

那么，合適的核函數是否一定存在？什么樣的核函數能作為核函數呢？對此，有如下定理：

定理令為輸入空間，k(•,•)為定義在上的對稱函數，則k是核函數當且僅當對於任意數據D = {x₁,x₂,...,x_m}，”核矩陣“（kernel matrix）K總是半正定的：

書中給出了幾種常見的核函數，見於下表

此外，核函數還可以通過函數組合得到：

若k₁和k₂是核函數，則k₁(x,z)k₂(x,z)也是核函數；
若k₁是核函數，則對於任意函數g(x)，k(x,z) = g(x)k₁(x,z)g(z)也是核函數。

二、線性支持向量機

2.1 軟間隔與正則化

如前文提到的，而“軟間隔”允許某些樣本不滿足。盡管如此，還是希望不滿足約束的樣本盡可能少。於是，優化目標可以改寫為

其中，C>0是常數，是“0/1損失函數”

為了使得優化目標更易於求解，引入一些數學性質更好的函數來替代，成為“替代損失”（surrogate loss）。替代損失函數通常是凸的、連續的，且是的上界。下面列出了一些常用的替代損失函數：

hinge損失：
指數損失(exponential loss）：
對率損失（logistic loss）：

例如，如果采用hinge損失，則優化目標變為

進而引入“松弛變量”（slcak variable）ξ_i≥0。每個樣本都對應一個松弛變量，用以表征該樣本不滿足約束的程度。由此，上式可以重寫為

此即為常見的“軟間隔支持向量機”，亦即“線性支持向量機”。

類似線性可分支持向量機的求解，首先通過lagrange乘子法得到lagrange函數

其中，是lagrange乘子。對ω,b,ξ_i分別求偏導為零，得到

代入原式即得到對偶問題

且上述過程滿足KKT條件

值得注意的是，SVM與對率回歸的優化目標相近。比如，若將對率損失作為替代損失函數帶入，則幾乎就得到對率回歸模型。

不過，與對率回歸模型不同的是，SVM不具有概率意義。對率回歸可直接用於多分類任務，而SVM則需要推廣。另一方面，由於hinge損失有一塊“平坦的”零區域，使得SVM的解具有稀疏性，而對率回歸的解則依賴更多的訓練樣本，預測開銷更大。

用不同函數作為替代損失函數得到的學習模型的性質與替代函數直接相關，但這些模型具有一個共性：即優化目標中，第一項用來描述划分超平面的“間隔”大小，另一項則用來表述訓練集上的誤差。於是，更一般的形式可寫為

其中Ω(ƒ)稱為“結構風險”（structural risk），用於描述模型自身的一些性質；成為“經驗風險”（empirical risk），用於描述與訓練集的契合程度。上述形式也可稱為“正則化”（regularization）問題，其中Ω(ƒ)為正則化項，C為正則化常數，而L_p范數（norm）為常用的正則化項。比如，L₂范數傾向於非零分量個數盡量稠密；而L₀和L₁范數傾向非零分量個數盡量少。