支持向量機模型

本文轉載自查看原文 2019-05-20 17:18 1197 algorithms

支持向量機模型(SVM)是一個二分類模型，基本思想是求解能夠正確划分訓練數據集並且幾何間隔最大的分離超平面，其學習策略便是間隔最大化，最終化為一個凸二次規划問題的求解。
SVM可分為線性可分支持向量機、線性支持向量機和非線性支持向量機。

算法推導

1. 線性可分支持向量機

引入函數間隔和幾何間隔

線性向量機的基本思想是硬間隔最大化，即：

\[\begin{aligned} \max_{w,b} \ \ \ \ &γ\\ s.t.\ \ \ \ \ &y_i·\frac{1}{||w||} ·(w·x_i+b)≥γ，i=1,2,…,N \end{aligned} \]

即：

\[\begin{aligned} \max_{w,b} \ \ \ \ &\frac{ŷ}{||w||}\\ s.t.\ \ \ \ \ &y_i·(w·x_i+b)≥ŷ，i=1,2,…,N \end{aligned} \]

取\(ŷ=1\)，得

\[\begin{aligned} \min_{w,b} \ \ \ \ &\frac{1}{2}{||w||}^2\\ s.t.\ \ \ \ \ &y_i·(w·x_i+b)-1≥0，i=1,2,…,N \end{aligned} \]

這是一個凸二次規划問題，通過引入拉格朗日乘子法，構建拉格朗日對偶函數，通過求其對偶函數的解，從而得到原始問題的最優解。

定義拉格朗日函數：

\[L(w,b,α)= \frac{1}{2}{||w||}^2-\sum_{i=1}^N{α_iy_i (w·x_i+b)}+\sum_{i=1}^N{α_i} \]

其中，\(α={(α_1,α_2,…,α_N)}^T\)為拉格朗日乘子向量，\(α_i≥0，i=1,2,…,N\)

原始問題的對偶問題是極大極小問題：

\[\max_α{\min_{w,b} L(w,b,α)} \]

求解對偶問題
- 求\(\min_{w,b} L(w,b,α)\)
分別對w,b求偏導數並令其為0：

\[\begin{aligned} \nabla_w L(w,b,α)=w-\sum_{i=1}^N{α_i y_i x_i}=0 \\ \nabla_b L(w,b,α)=\sum_{i=1}^N{α_i y_i}=0 \end{aligned} \]
得

\[\begin{aligned} w=\sum_{i=1}^N{α_i y_i x_i} \\ \sum_{i=1}^N{α_i y_i}=0 \end{aligned} \]
代入拉格朗日函數，得

\[L(w,b,α)= \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j (x_i·x_j+b)-\sum_{i=1}^N{α_i y_i ((\sum_{j=1}^N{α_j y_j x_j})·x_i+b)}+\sum_{i=1}^Nα_i \]

\[= -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j (x_i·x_j)+\sum_{i=1}^Nα_i \]
即

\[\min_{w,b} L(w,b,α) = -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j (x_i·x_j)+\sum_{i=1}^Nα_i \]
- 求\(\min_{w,b} L(w,b,α)\)對\(α\)的極大:
\[\max_{α}\ \ \ -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j (x_i·x_j)+\sum_{i=1}^Nα_i \]

\[s.t.\ \ \ \sum_{i=1}^N{α_i y_i}=0 \]

\[\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ α_i≥0，i=1,2,…,N \]
即：

\[\min_{α}\ \ \ \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j (x_i·x_j)-\sum_{i=1}^Nα_i \]

\[s.t.\ \ \ \sum_{i=1}^N{α_i y_i}=0 \]

\[\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ α_i≥0，i=1,2,…,N \]
求得最優解1

\[\alpha^x={({\alpha_1}^x,{\alpha_2}^x,…,{\alpha_N}^x)}^{T} \]
計算

\[w^*=\sum_{i=1}^N {α_i}^x y_i x_i \]
並選擇\(α^x\)的一個正分量\({α_j}^x>0\)，計算

\[b^x=y_i-\sum_{i=1}^N {α_i}^x y_i (x_i·x_j) \]
求得分類決策函數：

\[f(x)=sign(w^x·x+b^x) \]
可知\(w^x\)，\(b^x\)只依賴訓練數據中對應於\({α_i}^x>0\)的樣本點\((x_i,y_i)\)，而其他樣本點對\(w^x\)，\(b^x\)沒有影響。將訓練樣本中對應於\({α_i}^x>0\)的實例點稱為支持向量。

2. 線性支持向量機

對於線性不可分訓練集，引入松弛變量，采用軟間隔最大化策略

其原始問題為：

\[\begin{aligned} \min_{w,b} \ \ \ \ &\frac{1}{2}{||w||}^2+C\sum_{i=1}^{N}{ξ_i} \\ s.t.\ \ \ \ \ &y_i·(w·x_i+b)≥1-ξ_i，i=1,2,…,N \\ &ξ_i≥0，i=1,2,…,N \end{aligned} \]

構建拉格朗日函數：

\[L(w,b,ξ,α,μ)=\frac{1}{2}{||w||}^2+C\sum_{i=1}^{N}{ξi}-\sum_{i=1}^N{α_i(y_i (w·x_i+b)-1+ξi)}-\sum_{i=1}^N{μ_i ξ_i} \]

求導后代入，得

\[min_{w,b} {L(w,b,ξ,α,μ)}=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j (x_i·x_j)+\sum_{i=1}^Nα_i \]

得其對偶問題：

\[\max_{α}\ \ \ -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j (x_i·x_j)+\sum_{i=1}^Nα_i \\ \]

\[s.t.\ \ \ \sum_{i=1}^N{α\_i y_i}=0\\ \]

\[\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ α_i≥0，i=1,2,…,N \]

\[\ \ \ \ \ \ \ \ \ \ \ \ \ C-α_i-μ_i=0 \]

\[ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ μ_i≥0，i=1,2,…,N \]

可以看做最小化以下目標函數：

\[\sum_{i=1}^N[1-y_i (w·x_i+b)]_++λ||w||^2 \]

目標函數第一項是經驗風險，稱為合頁損失函數（hinge loss function）

3. 非線性支持向量機

核函數：我們可以使用核函數，將原始輸入空間映射到新的樣本空間，從而使原來線性不可分得變成高維的線性可分。
在線性支持向量機的對偶問題中，無論是目標函數還是決策函數都只涉及輸入實例與實例之間的內積。在對偶問題的目標函數中內積可以用核函數來代替，此時對偶問題的目標函數成為：

\[W(α)=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N α_i α_j y_i y_j K(x_i·x_j)+\sum_{i=1}^Nαi \]

同樣，分類決策函數中的內積也可以用核函數代替，而分類決策函數成為：

\[f(x)=sign(\sum{i=1}^{N_s}α_i^x y_i·ϕ(x_i)·\phi(x)+b^x) \ \ \ =sign(\sum_{i=1}^{N_s}α_i^x y_i K(x_i,x)+b^x) \]

SMO

SMO是用於快速求解SVM的
它選擇凸二次規划的兩個變量，其他的變量保持不變，然后根據這兩個變量構建一個二次規划問題，這個二次規划關於這兩個變量解會更加的接近原始二次規划的解，通過這樣的子問題划分可以大大增加整個算法的計算速度，關於這兩個變量：

其中一個是嚴重違反KKT條件的一個變量
另一個變量是根據自由約束確定，求剩余變量的最大化來確定的。