超詳細SVM（支持向量機）知識點

本文轉載自查看原文 2021-01-24 17:28 358 機器學習

原地址：https://zhuanlan.zhihu.com/p/76946313

一. 簡單概括一下SVM：

SVM 是一種二類分類模型。它的基本思想是在特征空間中尋找間隔最大的分離超平面使數據得到高效的二分類，具體來講，有三種情況（不加核函數的話就是個線性模型，加了之后才會升級為一個非線性模型）：

當訓練樣本線性可分時，通過硬間隔最大化，學習一個線性分類器，即線性可分支持向量機；
當訓練數據近似線性可分時，引入松弛變量，通過軟間隔最大化，學習一個線性分類器，即線性支持向量機；
當訓練數據線性不可分時，通過使用核技巧及軟間隔最大化，學習非線性支持向量機。

二. SVM 為什么采用間隔最大化（與感知機的區別）：

當訓練數據線性可分時，存在無窮個分離超平面可以將兩類數據正確分開。感知機利用誤分類最小策略，求得分離超平面，不過此時的解有無窮多個。線性可分支持向量機利用間隔最大化求得最優分離超平面，這時，解是唯一的。另一方面，此時的分隔超平面所產生的分類結果是最魯棒的，對未知實例的泛化能力最強。

三. SVM的目標（硬間隔）：

有兩個目標：第一個是使間隔最大化，第二個是使樣本正確分類，由此推出目標函數：

$目標一（使間隔最大化）：{\min _{\mathbf{w}, b} \frac{1}{2}\|\mathbf{w}\|^{2}}\\$

$目標二（使樣本正確分類）：y_{i}\left(\mathbf{w}^{T}\mathbf{x}_i+b\right) \geq 1, i=1,2, \ldots, m\\$

稍微解釋一下，w是超平面參數，目標一是從點到面的距離公式化簡來的，具體不展開，目標二就相當於感知機，只是把大於等於0進行縮放變成了大於等於1，為了后面的推導方便。有了兩個目標，寫在一起，就變成了svm的終極目標：

$終極目標：\begin{array}{c}{\min _{w, b} \frac{1}{2}\|w\|^{2}} \\ {\text {s.t. } y_{i}\left(w^{T} x_{i}+b\right) \geq 1, \forall i}\end{array}\\$

四. 求解目標（硬間隔）：

從上面的公式看出，這是一個有約束條件的最優化問題，用拉格朗日函數來解決。

上式的拉格朗日函數為：

$min_{w,b}max_\alpha L(\omega, b, \alpha)=\frac{1}{2}\|\omega\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)\right)\\ s.t. \alpha_i \geq 0 , \forall i$

在滿足Slater定理的時候，且過程滿足KKT條件的時候，原問題轉換成對偶問題：

$max_\alpha min_{w,b} L(\omega, b, \alpha)=\frac{1}{2}\|\omega\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)\right)\\ s.t. \alpha_i \geq0 , \forall i$

先求內部最小值，對 $\omega$ 和 $b$ 求偏導並令其等於 $0$ 可得：

$w=\sum_{i=1}^{m}{\alpha_{i}y_{i}x_{i}},\\ 0=\sum_{i=1}^{m}{\alpha_{i}y_{i}}.\\$

將其代入到上式中去可得到

$\begin{aligned} max_\alpha L(\omega, b, \alpha)=& \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ & s . t . \sum_{i=1}^{m} \alpha_{i} y_{i}=0 （ \alpha_{i} \geq 0, i=1,2, \ldots, m ）\end{aligned}\\$

此時需要求解 $\alpha$ ，利用SMO（序列最小優化）算法：

SMO算法的基本思路是每次選擇兩個變量 $\alpha_{i}$ 和 $\alpha_{j}$ ，選取的兩個變量所對應的樣本之間間隔要盡可能大，因為這樣更新會帶給目標函數值更大的變化。SMO算法之所以高效，是因為僅優化兩個參數的過程實際上僅有一個約束條件，其中一個可由另一個表示，這樣的二次規划問題具有閉式解。

五. 軟間隔：

不管直接在原特征空間，還是在映射的高維空間，我們都假設樣本是線性可分的。雖然理論上我們總能找到一個高維映射使數據線性可分，但在實際任務中，尋找一個合適的核函數核很困難。此外，由於數據通常有噪聲存在，一味追求數據線性可分可能會使模型陷入過擬合，因此，我們放寬對樣本的要求，允許少量樣本分類錯誤。這樣的想法就意味着對目標函數的改變，之前推導的目標函數里不允許任何錯誤，並且讓間隔最大，現在給之前的目標函數加上一個誤差，就相當於允許原先的目標出錯，引入松弛變量 $\xi_i \ge 0$ ，公式變為：

$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+\sum_{i=1}^{n} \xi_{i}\\$

那么這個松弛變量怎么計算呢，最開始試圖用0，1損失去計算，但0，1損失函數並不連續，求最值時求導的時候不好求，所以引入合頁損失（hinge loss）：

$l_{h i n g e}(z)=\max (0,1-z)\\$

函數圖張這樣：

理解起來就是，原先制約條件是保證所有樣本分類正確， $y_{i}\left(w^{T} x_{i}+b\right) \geq 1, \forall i$ ，現在出現錯誤的時候，一定是這個式子不被滿足了，即 $y_{i}\left(w^{T} x_{i}+b\right) < 1, \forall i_{錯誤}$ ，衡量一下錯了多少呢？因為左邊一定小於1，那就跟1比較，因為1是邊界，所以用1減去 $y_{i}\left(w^{T} x_{i}+b\right)$ 來衡量錯誤了多少，所以目標變為（正確分類的話損失為0，錯誤的話付出代價）：

$\min _{w, b} \frac{1}{2}\|w\|^{2}+\sum_{i=1}^{n} max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

但這個代價需要一個控制的因子，引入C>0，懲罰參數，即：

$\min _{w, b} \frac{1}{2}\|w\|^{2}+C\sum_{i=1}^{n} max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

可以想象，C越大說明把錯誤放的越大，說明對錯誤的容忍度就小，反之亦然。當C無窮大時，就變成一點錯誤都不能容忍，即變成硬間隔。實際應用時我們要合理選取C，C越小越容易欠擬合，C越大越容易過擬合。

所以軟間隔的目標函數為：

$\begin{array}{c}{\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{n} \xi_{i}} \\ {\text { s.t. } y_{i}\left(x_{i}^{T} w+b\right) \geq 1-\xi_{i}} \\ {\quad \xi_{i} \geq 0, i=1,2, \ldots n}\end{array}\\$

其中：

$\xi_{i}=max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

六. 軟間隔求解：

與硬間隔類似：

上式的拉格朗日函數為：

$min_{w,b,\xi}max_{\alpha,\beta} L(\omega, b, \alpha,\xi,\beta)=\frac{1}{2}\|\omega\|^{2}+C \sum_{i=1}^{n} \xi_{i}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)-\xi_{i}\right)-\sum_{i=1}^{n} \beta_{i} \xi_{i}\\ s.t. \alpha_i \geq 0 且\beta_{i}\geq 0, \forall i$

在滿足Slater定理的時候，且過程滿足KKT條件的時候，原問題轉換成對偶問題：

$max_{\alpha,\beta} min_{w,b,\xi} L(\omega, b, \alpha,\xi,\beta)=\frac{1}{2}\|\omega\|^{2}+C \sum_{i=1}^{n} \xi_{i}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)-\xi_{i}\right)-\sum_{i=1}^{n} \beta_{i} \xi_{i}\\ s.t. \alpha_i \geq 0 且\beta_{i}\geq 0, \forall i$

先求內部最小值，對 $\omega$ , $b$ 和 $\xi$ 求偏導並令其等於 $0$ 可得：

$w=\sum_{i=1}^{m}{\alpha_{i}y_{i}x_{i}},\\ 0=\sum_{i=1}^{m}{\alpha_{i}y_{i}}.\\C=\alpha_{i}+\beta_{i}\\$

將其代入到上式中去可得到，注意 $\beta$ 被消掉了：

$\begin{aligned} max_{\alpha,\beta} L(\omega, b, \alpha,\xi,\beta)=& \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ & s . t . \sum_{i=1}^{m} \alpha_{i} y_{i}=0 （0 \leq \alpha_{i} \leq C, i=1,2, \ldots, m ）\end{aligned}\\$

此時需要求解 $\alpha$ ，同樣利用SMO（序列最小優化）算法。

七. 核函數：

為什么要引入核函數：

當樣本在原始空間線性不可分時，可將樣本從原始空間映射到一個更高維的特征空間，使得樣本在這個特征空間內線性可分。而引入這樣的映射后，所要求解的對偶問題的求解中，無需求解真正的映射函數，而只需要知道其核函數。核函數的定義：K(x,y)=<ϕ(x),ϕ(y)>，即在特征空間的內積等於它們在原始樣本空間中通過核函數 K 計算的結果。一方面數據變成了高維空間中線性可分的數據，另一方面不需要求解具體的映射函數，只需要給定具體的核函數即可，這樣使得求解的難度大大降低。

用自己的話說就是，在SVM不論是硬間隔還是軟間隔在計算過程中，都有X轉置點積X，若X的維度低一點還好算，但當我們想把X從低維映射到高維的時候（讓數據變得線性可分時），這一步計算很困難，等於說在計算時，需要先計算把X映射到高維的的ϕ(x)，再計算ϕ(x1)和ϕ(x2)的點積，這一步計算起來開銷很大，難度也很大，此時引入核函數，這兩步的計算便成了一步計算，即只需把兩個x帶入核函數，計算核函數，舉個列子一目了然（圖片來自：從零推導支持向量機）：

個人對核函數的理解：核函數就是一個函數，接收兩個變量，這兩個變量是在低維空間中的變量，而核函數求的值等於將兩個低維空間中的向量映射到高維空間后的內積。

八. 如何確定一個函數是核函數：

驗證正定核啥的，咱也不太懂，給出：

設 $\mathcal{X} \subset R^n$ , $K(x,z)$ 是定義在 $\mathcal{X} \times \mathcal{X}$ 上的對稱函數，如果對任意的 $x_i \in \mathcal{X}, i=1,2,...,m$ ， $K(x,z)$ 對應的Gram矩陣 $K = [K(x_i, x_j)]_{m \times m}$ 是半正定矩陣，則 $K(x,z)$ 是正定核

所以不懂，就用人家確定好的常見核函數及其優缺點：

九. 如何選擇核函數：

當特征維數 d 超過樣本數 m 時 (文本分類問題通常是這種情況), 使用線性核;
當特征維數 d 比較小. 樣本數 m 中等時, 使用RBF核;
當特征維數 d 比較小. 樣本數 m 特別大時, 支持向量機性能通常不如深度神經網絡

十. 關於支持向量的問題：

1.先說硬間隔：

先看KKT條件

支持向量，對偶變量 αi > 0 對應的樣本；

線性支持向量機中, 支持向量是距離划分超平面最近的樣本, 落在最大間隔邊界上。

支持向量機的參數 (w; b) 僅由支持向量決定, 與其他樣本無關。

2. 再說軟間隔：

先看kkt條件：

經過SMO后，求得 $\hat{\alpha}$ ， $0 < \hat{\alpha}_j < C$ 。

對於任意樣本 $(X_i, y_i)$ ，

若 $\alpha_i=0$ ，此樣本點不是支持向量，該樣本對模型沒有任何的作用
若 $\alpha_i>0$ ，此樣本是一個支持向量（同硬間隔）

若滿足 $\alpha_i>0$ ，進一步地，

若 $0 < \alpha_i < C$ , 則 $\beta_i = 0$ ，即剛好 $y_i(X_i^TW+b) =1$ ，樣本恰好在最大間隔邊界上
若 $\alpha_i = C$ ，有 $\beta_i > 0$ ，此時若 $\beta_i < 1$ 則該樣本落在最大間隔內部
若 $\beta_i > 1$ 則該樣本落在最大間隔內部（不屬於自己的另一部分）即被錯誤分類

如圖：

十一. 談談SVM的損失函數：

此處說的是軟間隔：

先看軟間隔的基本型形式：

$\min _{w, b} \frac{1}{2}\|w\|^{2}+C\sum_{i=1}^{n} max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

稍微做一點變化：

$\min _{\boldsymbol{w}, b} \frac{1}{m} \sum_{i=1}^{m}( \max 0,1-y_{i}\left(\boldsymbol{w}^{\top} \boldsymbol{\phi}\left(\boldsymbol{x}_{i}\right)+b\right)+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2}\\$

這樣寫是為了符合標准的損失函數+正則化的樣子，其中, 第一項稱為經驗風險, 度量了模型對訓練數據的擬合程度; 第二項稱為結構風險, 也稱為正則化項, 度量了模型自身的復雜度. 正則化項削減了假設空間, 從而降低過擬合風險. λ 是個可調節的超參數, 用於權衡經驗風險和結構風險.

其中：

$\xi_{i} = \max \left(0,1-y_{i}\left(\boldsymbol{w}^{\top} \boldsymbol{\phi}\left(\boldsymbol{x}_{i}\right)+b\right)\right) \geq 0\\$

$\lambda=\frac{1}{m C}\\$

這樣的話給上式乘以mc，就會變成上上式了。

十二. 為什么SVM對缺失數據敏感？

這里說的缺失數據是指缺失某些特征數據，向量數據不完整。SVM 沒有處理缺失值的策略。而 SVM 希望樣本在特征空間中線性可分，所以特征空間的好壞對SVM的性能很重要。缺失特征數據將影響訓練結果的好壞。

十三. SVM的優缺點：

優點：

由於SVM是一個凸優化問題，所以求得的解一定是全局最優而不是局部最優。
不僅適用於線性線性問題還適用於非線性問題(用核技巧)。
擁有高維樣本空間的數據也能用SVM，這是因為數據集的復雜度只取決於支持向量而不是數據集的維度，這在某種意義上避免了“維數災難”。
理論基礎比較完善(例如神經網絡就更像一個黑盒子)。

缺點：

二次規划問題求解將涉及m階矩陣的計算(m為樣本的個數), 因此SVM不適用於超大數據集。(SMO算法可以緩解這個問題)
只適用於二分類問題。(SVM的推廣SVR也適用於回歸問題；可以通過多個SVM的組合來解決多分類問題)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 支持向量機SVM 支持向量機（SVM） SVM支持向量機 SVM 支持向量機 SVM（支持向量機）支持向量機（SVM）的詳細推導過程及注解支持向量機（SVM）之數學公式詳細推導 SVM支持向量機算法我眼中的支持向量機（SVM） SVM支持向量機實例