【機器學習具體解釋】SVM解二分類,多分類,及后驗概率輸出

本文轉載自查看原文 2017-07-16 13:06 4652

轉載請注明出處:http://blog.csdn.net/luoshixian099/article/details/51073885

C S D N - 勿 在 浮 沙 築 高 台

支持向量機(Support Vector Machine)以前在分類、回歸問題中非常流行。支持向量機也稱為最大間隔分類器，通過分離超平面把原始樣本集划分成兩部分。

首先考慮最簡單的情況：線性可分支持向量機。即存在一個超平面能夠把訓練樣本分開。

1.線性可分支持向量機

1.考慮一個線性二分類的問題；例如以下左圖，在二維平面上有兩種樣本點x，目標值分別標記為{-1,1}。能夠作出無數條直線 wTx+b=0 ,直線上方的點標記為{+1}的帶入直線公式會得到 wTx+b>0 ,下方的點。標記為{-1}帶入直線公式會得到 wTx+b<0 ，因此能夠用 wTx+b 的符號決定點的分類，寫成決策函數為 f(x,w,b)=sign(wTx+b) 把兩類點分開。可是個採用哪個直線最好呢？
2.一般來說，當樣本點離直線越遠。則分類正確的確信度越大；例如以下右圖所看到的，A,B,C三個樣本點都被預測分類到‘×’類中。可是對於A的分類正確的確信度比C大。因為點C里分類直線 wTx+b=0 非常近，當直線的斜率稍一點變化，即會導致C被分到還有一類中。
綜上。我們想要得到的直線是離樣本點最遠。同時又能保證正確划分的直線。

這里寫圖片描寫敘述

1.1函數間隔與幾何間隔

由二維直線 wTx+b=0 擴展到高維被稱為超平面 (w,b) 。

一個點距離超平面的遠近能夠表示分類預測的確信程度。在超平面 wTx+b=0 確定的情況下， |wTx+b| 能夠相對地表示點x距離超平面的遠近。並且假設分類正確。則 y(i) 與 wTx(i)+b 的符號一致,即 y(i)(wTx(i)+b)>0 ，同一時候表示分類的正確性以及確信度。
函數間隔：超平面 (w,b) 關於樣本點 (x(i),y(i)) 的函數間隔為

函 數 間 隔 : γ^(i) = y (i) (w T x (i) + b)

定義超平面關於樣本集S的函數間隔為超平面(w,b)與S中全部樣本點的函數間隔的最小值

γ^= m i n i = 1, 2, . . . m γ^(i)

定義

γ^ 是為了最大化間隔，

γ^ 表示關於超平面與訓練集中樣本的函數間隔最小值，以下僅僅要最大化

γ^ 就可以。
注意到函數間隔實際上並不能表示點到超平面的距離，因為當超平面

(w,b) 參數擴大同樣的倍數后，如

(2w,2b) ，超平面的位置並沒有改變，可是函數間隔也變大了同樣的倍數

2γ^(i) .
幾何間隔：
這里寫圖片描寫敘述

如上圖所看到的：設樣本點A坐標為

x(i) ,點A到超平面的垂直距離記為

γ(i) ,分離超平面

wTx(i)+b=0 的單位法向量為

w||w|| ,因此點B的坐標為

x(i)−γ(i)w||w|| ，且點B在直線上，帶入直線公式有：

w T (x (i) - γ (i) w | | w | |) + b = 0 ； 解 得 : γ (i) = ( w T x ( i ) + b ) | | w | |

假設點被正確分類。

y(i) 與

(wTx(i)+b)||w|| 的符號一致，由此

同 理 定 義 幾 何 間 隔 : γ (i) = y (i) (w T x ( i ) + b | | w | |)

超 平 面 與 樣 本 集 S 的 幾 何 間 隔 為 γ = m i n i = 1, 2, . . . m γ (i)

幾何間隔不隨着超平面參數的變化而變化，比如超平面參數(w,b)變為(2w,2b)。函數間隔

γ^(i) 變為

2γ^(i) ,而幾何間隔

γ(i) 保持不變。
函數間隔與幾何間隔的關系：

γ(i)=γ^(i)||w|| ；

γ=γ^||w|| ，若||w||=1,函數間隔與幾何間隔同樣。

1.2間隔最大化

如上所述。支持向量機的基本想法是求解能夠正確划分訓練數據集並且幾何間隔最大的分離超平面。 γ 表示分離超平面與訓練集中樣本的幾何間隔的最小值。為了間隔最大化。僅僅須要最大化 γ ，同一時候全部樣本的幾何間隔必須滿足 γ(i)≥γ,i=1,2,...,m ;

m a x w, b γ

s . t . y (i) (w T x ( i ) + b | | w | |) \geq γ

上述問題，能夠轉變為一個凸二次規划問題。這是支持向量機的一個重要屬性，局部極值即為全局最值。
考慮函數間隔與幾何間隔的關系：
這里寫圖片描寫敘述

上述優化問題中，當超平面參數(w,b)同一時候變為(2w,2b)，函數間隔也會變為

2γ^ ,目標函數的解並不會變化。即

γ^ 的取值不影響優化問題的解。因此令

γ^=1 。目標函數變為最大化

1||w|| ，即最小化

||w||2 。為了后面的求解方便，加入因子

12 也不影響目標函數的解；
這里寫圖片描寫敘述

上述問題為一個凸優化問題，通過某些優化算法能夠求解。

以下繼續介紹拉格朗日對偶算法，能夠更進一步優化上述問題，同一時候自然引入核函數，推廣到高維數據。

1.3拉格朗日對偶性

有時考慮解決原始問題的對偶問題會更高效。

原始問題
f(w),gi(w),hi(w) 均為連續可微：
這里寫圖片描寫敘述
寫出拉格朗日函數。當中 αi≥0,β≥0 稱為拉格朗日乘子：

定義關於 w 的函數 θP(w)=maxα,βL(w,α,β) ;能夠證明假設 w 滿足上述約束條件 gi(w)≤0,hi(w)=0 ，則有 θP(w)=f(w)
這里寫圖片描寫敘述
由此原始問題的約束最優化問題變為極小極大問題：

設原始問題的最優解記為 p∗=minwf(w)=minwθp(w) .
對偶問題
把上述極小極大問題 minw maxα,βL(w,α,β) ,改為極大極小變為對偶問題，即：
定義：這里寫圖片描寫敘述

設此極大極小問題的最優解記為 d∗ ,能夠證明

為了使得對偶問題與原始問題的最優解相等 d∗=p∗ ，必須滿足下述幾個條件。稱為KKT條件

1.4最優間隔分類器

回想原始問題：
這里寫圖片描寫敘述
寫成拉格朗日函數。因為僅僅有不等式約束所以僅僅包括拉格朗日乘子 αi ：

原始問題最優解 p∗=minw,b maxαL(w,b,α) ;對偶問題的最優解 d∗=maxα minw,bL(w,b,α)
對偶問題先求關於參數w,b的最小值，再求關於參數 α 的最大值。

首先，分別對w,b求偏導數並令為0。得：
這里寫圖片描寫敘述

把上述結果帶入拉格朗日函數 L(w,b,α)

注意到上述是僅僅關於參數 α 的函數，記為 W(α) ,由對偶函數。下一步即最大化 W(α)
這里寫圖片描寫敘述
以下的目的是解決上述優化問題。通常採用SMO算法，本篇文章暫不做介紹。假如已經得到最優解 α=(α1,α2,...,αm) ,帶回到上面對w求偏導得到的公式，能夠得到 w 的值。以下要求得b得值，考慮KKT條件有： αi[y(i)(wTx(i)+b)−1]=0。i=1,2..m ,當中必定存在一個 αj≠0 ,（否則 w=0 ,不是原始解）。

當 αj≠0 時 y(i)(wTx(i)+b)=1 ,能夠解出 b 的代數式。 b=y(j)−∑mi=1αiy(i)(x(i),x(j)) ，也能夠對全部採用滿足條件的 b 加和求平均；然后就可以得到最佳分類超平面：
這里寫圖片描寫敘述
依據KKT條件有 αi[y(i)(wTx(i)+b)−1]=0，i=1,2..m ，當 αi>0 時,必定有 y(i)(wTx(i)+b)=1 ，即該樣本點的函數間隔為1。例如以下圖所看到的，落在直線 wTx+b=±1 上。此向量即稱為支持向量。對於落在直線 wTx+b=±1 以內的點，函數間隔 y(j)(wTx(j)+b)>1 ,必定有 αj=0 ，當計算函數最優切割超平面參數w,b時。這些點相應的 αj=0 。所以對參數沒有影響。僅僅有支持向量，即落在 wTx+b=±1 上數據影響着最優超平面的計算。

這里寫圖片描寫敘述

2.線性支持向量機

以上討論的內容是建立在數據是線性可分的情況。即存在一個分離超平面能夠把訓練數據分為兩部分。實際上數據並不會這么理想，例如以下圖所看到的。即存在某些樣本點不能滿足函數間隔大於等於1這個條件。
這里寫圖片描寫敘述
這時能夠為每一個數據點設置一個松弛因子 ξi≥0 ,使得函數間隔 γi 加上松弛因子 ξi 大於等於1.即 y(i)(wTx(i)+w0)≥1−ξi ,同一時候對每一個松弛因子 ξi 支付一個代價 ξi 。由此原始問題變為：
這里寫圖片描寫敘述
C稱為懲處參數(C>0)。C值越大對誤分類的懲處越大。因為當C為無窮大時，即成為了線性可分問題。
採用與線性可分同樣的過程。建立拉格朗日函數：