SVM面試知識點總結

本文轉載自查看原文 2019-10-18 15:02 1339 機器學習算法面試

1. SVM 原理

SVM 是一種二類分類模型。它的基本思想是在特征空間中尋找間隔最大的分離超平面使數據得到高效的二分類，具體來講，有三種情況（不加核函數的話就是個線性模型，加了之后才會升級為一個非線性模型）：

當訓練樣本線性可分時，通過硬間隔最大化，學習一個線性分類器，即線性可分支持向量機；
當訓練數據近似線性可分時，引入松弛變量，通過軟間隔最大化，學習一個線性分類器，即線性支持向量機；
當訓練數據線性不可分時，通過使用核技巧及軟間隔最大化，學習非線性支持向量機。

2. SVM 為什么采用間隔最大化（與感知機的區別）：

當訓練數據線性可分時，存在無窮個分離超平面可以將兩類數據正確分開。感知機利用誤分類最小策略，求得分離超平面，不過此時的解有無窮多個。線性可分支持向量機利用間隔最大化求得最優分離超平面，這時，解是唯一的。另一方面，此時的分隔超平面所產生的分類結果是最魯棒的，對未知實例的泛化能力最強。

3. 為什么要將求解 SVM 的原始問題轉換為其對偶問題

一是對偶問題往往更易求解，當我們尋找約束存在時的最優點的時候，約束的存在雖然減小了需要搜尋的范圍，但是卻使問題變得更加復雜。為了使問題變得易於處理，我們的方法是把目標函數和約束全部融入一個新的函數，即拉格朗日函數，再通過這個函數來尋找最優點。
二是可以自然引入核函數，進而推廣到非線性分類問題。

4. 為什么 SVM 要引入核函數

當樣本在原始空間線性不可分時，可將樣本從原始空間映射到一個更高維的特征空間，使得樣本在這個特征空間內線性可分。而引入這樣的映射后，所要求解的對偶問題的求解中，無需求解真正的映射函數，而只需要知道其核函數。核函數的定義：K(x,y)=<ϕ(x),ϕ(y)>，即在特征空間的內積等於它們在原始樣本空間中通過核函數 K 計算的結果。一方面數據變成了高維空間中線性可分的數據，另一方面不需要求解具體的映射函數，只需要給定具體的核函數即可，這樣使得求解的難度大大降低。

用自己的話說就是，在SVM不論是硬間隔還是軟間隔在計算過程中，都有X轉置點積X，若X的維度低一點還好算，但當我們想把X從低維映射到高維的時候（讓數據變得線性可分時），這一步計算很困難，等於說在計算時，需要先計算把X映射到高維的的ϕ(x)，再計算ϕ(x1)和ϕ(x2)的點積，這一步計算起來開銷很大，難度也很大，此時引入核函數，這兩步的計算便成了一步計算，即只需把兩個x帶入核函數，計算核函數，舉個列子一目了然：

個人對核函數的理解：核函數就是一個函數，接收兩個變量，這兩個變量是在低維空間中的變量，而核函數求的值等於將兩個低維空間中的向量映射到高維空間后的內積。

5. 為什么SVM對缺失數據敏感

這里說的缺失數據是指缺失某些特征數據，向量數據不完整。SVM 沒有處理缺失值的策略。而 SVM 希望樣本在特征空間中線性可分，所以特征空間的好壞對SVM的性能很重要。缺失特征數據將影響訓練結果的好壞。

6. 如何選擇核函數：

當特征維數 d 超過樣本數 m 時 (文本分類問題通常是這種情況), 使用線性核;
當特征維數 d 比較小. 樣本數 m 中等時, 使用RBF核;
當特征維數 d 比較小. 樣本數 m 特別大時, 支持向量機性能通常不如深度神經網絡

7. SVM的目標（硬間隔）：

有兩個目標：第一個是使間隔最大化，第二個是使樣本正確分類，由此推出目標函數：

$目標一（使間隔最大化）：{\min _{\mathbf{w}, b} \frac{1}{2}\|\mathbf{w}\|^{2}}\\$

$目標二（使樣本正確分類）：y_{i}\left(\mathbf{w}^{T}\mathbf{x}_i+b\right) \geq 1, i=1,2, \ldots, m\\$

稍微解釋一下，w是超平面參數，目標一是從點到面的距離公式化簡來的，具體不展開，目標二就相當於感知機，只是把大於等於0進行縮放變成了大於等於1，為了后面的推導方便。有了兩個目標，寫在一起，就變成了svm的終極目標：

$終極目標：\begin{array}{c}{\min _{w, b} \frac{1}{2}\|w\|^{2}} \\ {\text {s.t. } y_{i}\left(w^{T} x_{i}+b\right) \geq 1, \forall i}\end{array}\\$

8. 求解目標（硬間隔）：

從上面的公式看出，這是一個有約束條件的最優化問題，用拉格朗日函數來解決。

上式的拉格朗日函數為：

$min_{w,b}max_\alpha L(\omega, b, \alpha)=\frac{1}{2}\|\omega\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)\right)\\ s.t. \alpha_i \geq 0 , \forall i$

在滿足Slater定理的時候，且過程滿足KKT條件的時候，原問題轉換成對偶問題：

$max_\alpha min_{w,b} L(\omega, b, \alpha)=\frac{1}{2}\|\omega\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)\right)\\ s.t. \alpha_i \geq0 , \forall i$

先求內部最小值，對 $\omega$ 和 $b$ 求偏導並令其等於 $0$ 可得：

$w=\sum_{i=1}^{m}{\alpha_{i}y_{i}x_{i}},\\ 0=\sum_{i=1}^{m}{\alpha_{i}y_{i}}.\\$

將其代入到上式中去可得到

$\begin{aligned} max_\alpha L(\omega, b, \alpha)=& \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ & s . t . \sum_{i=1}^{m} \alpha_{i} y_{i}=0 （ \alpha_{i} \geq 0, i=1,2, \ldots, m ）\end{aligned}\\$

此時需要求解 $\alpha$ ，利用SMO（序列最小優化）算法：

SMO算法的基本思路是每次選擇兩個變量 $\alpha_{i}$ 和 $\alpha_{j}$ ，選取的兩個變量所對應的樣本之間間隔要盡可能大，因為這樣更新會帶給目標函數值更大的變化。SMO算法之所以高效，是因為僅優化兩個參數的過程實際上僅有一個約束條件，其中一個可由另一個表示，這樣的二次規划問題具有閉式解。

9. 軟間隔：

不管直接在原特征空間，還是在映射的高維空間，我們都假設樣本是線性可分的。雖然理論上我們總能找到一個高維映射使數據線性可分，但在實際任務中，尋找一個合適的核函數核很困難。此外，由於數據通常有噪聲存在，一味追求數據線性可分可能會使模型陷入過擬合，因此，我們放寬對樣本的要求，允許少量樣本分類錯誤。這樣的想法就意味着對目標函數的改變，之前推導的目標函數里不允許任何錯誤，並且讓間隔最大，現在給之前的目標函數加上一個誤差，就相當於允許原先的目標出錯，引入松弛變量 $\xi_i \ge 0$ ，公式變為：

$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+\sum_{i=1}^{n} \xi_{i}\\$

那么這個松弛變量怎么計算呢，最開始試圖用0，1損失去計算，但0，1損失函數並不連續，求最值時求導的時候不好求，所以引入合頁損失（hinge loss）：

$l_{h i n g e}(z)=\max (0,1-z)\\$

函數圖長這樣：

理解起來就是，原先制約條件是保證所有樣本分類正確， $y_{i}\left(w^{T} x_{i}+b\right) \geq 1, \forall i$ ，現在出現錯誤的時候，一定是這個式子不被滿足了，即 $y_{i}\left(w^{T} x_{i}+b\right) < 1, \forall i_{錯誤}$ ，衡量一下錯了多少呢？因為左邊一定小於1，那就跟1比較，因為1是邊界，所以用1減去 $y_{i}\left(w^{T} x_{i}+b\right)$ 來衡量錯誤了多少，所以目標變為（正確分類的話損失為0，錯誤的話付出代價）：

$\min _{w, b} \frac{1}{2}\|w\|^{2}+\sum_{i=1}^{n} max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

但這個代價需要一個控制的因子，引入C>0，懲罰參數，即：

$\min _{w, b} \frac{1}{2}\|w\|^{2}+C\sum_{i=1}^{n} max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

可以想象，C越大說明把錯誤放的越大，說明對錯誤的容忍度就小，反之亦然。當C無窮大時，就變成一點錯誤都不能容忍，即變成硬間隔。實際應用時我們要合理選取C，C越小越容易欠擬合，C越大越容易過擬合。

所以軟間隔的目標函數為：

$\begin{array}{c}{\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{n} \xi_{i}} \\ {\text { s.t. } y_{i}\left(x_{i}^{T} w+b\right) \geq 1-\xi_{i}} \\ {\quad \xi_{i} \geq 0, i=1,2, \ldots n}\end{array}\\$

其中：

$\xi_{i}=max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

10. 軟間隔求解：

與硬間隔類似：

上式的拉格朗日函數為：

$min_{w,b,\xi}max_{\alpha,\beta} L(\omega, b, \alpha,\xi,\beta)=\frac{1}{2}\|\omega\|^{2}+C \sum_{i=1}^{n} \xi_{i}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)-\xi_{i}\right)-\sum_{i=1}^{n} \beta_{i} \xi_{i}\\ s.t. \alpha_i \geq 0 且\beta_{i}\geq 0, \forall i$

在滿足Slater定理的時候，且過程滿足KKT條件的時候，原問題轉換成對偶問題：

$max_{\alpha,\beta} min_{w,b,\xi} L(\omega, b, \alpha,\xi,\beta)=\frac{1}{2}\|\omega\|^{2}+C \sum_{i=1}^{n} \xi_{i}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\omega^{T} x_{i}+b\right)-\xi_{i}\right)-\sum_{i=1}^{n} \beta_{i} \xi_{i}\\ s.t. \alpha_i \geq 0 且\beta_{i}\geq 0, \forall i$

先求內部最小值，對 $\omega$ , $b$ 和 $\xi$ 求偏導並令其等於 $0$ 可得：

$w=\sum_{i=1}^{m}{\alpha_{i}y_{i}x_{i}},\\ 0=\sum_{i=1}^{m}{\alpha_{i}y_{i}}.\\C=\alpha_{i}+\beta_{i}\\$

將其代入到上式中去可得到，注意 $\beta$ 被消掉了：

$\begin{aligned} max_{\alpha,\beta} L(\omega, b, \alpha,\xi,\beta)=& \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ & s . t . \sum_{i=1}^{m} \alpha_{i} y_{i}=0 （0 \leq \alpha_{i} \leq C, i=1,2, \ldots, m ）\end{aligned}\\$

此時需要求解 $\alpha$ ，同樣利用SMO（序列最小優化）算法。

11. 關於支持向量的問題：

1.先說硬間隔：

先看KKT條件

支持向量，對偶變量 αi > 0 對應的樣本；

線性支持向量機中, 支持向量是距離划分超平面最近的樣本, 落在最大間隔邊界上。

支持向量機的參數 (w; b) 僅由支持向量決定, 與其他樣本無關。

2. 再說軟間隔：

先看kkt條件：

經過SMO后，求得 $\hat{\alpha}$ ， $0 < \hat{\alpha}_j < C$ 。

對於任意樣本 $(X_i, y_i)$ ，

若 $\alpha_i=0$ ，此樣本點不是支持向量，該樣本對模型沒有任何的作用
若 $\alpha_i>0$ ，此樣本是一個支持向量（同硬間隔）

若滿足 $\alpha_i>0$ ，進一步地，

若 $0 < \alpha_i < C$ , 則 $\beta_i = 0$ ，即剛好 $y_i(X_i^TW+b) =1$ ，樣本恰好在最大間隔邊界上
若 $\alpha_i = C$ ，有 $\beta_i > 0$ ，此時若 $\beta_i < 1$ 則該樣本落在最大間隔內部
若 $\beta_i > 1$ 則該樣本落在最大間隔內部（不屬於自己的另一部分）即被錯誤分類

如圖：

12. 談談SVM的損失函數：

此處說的是軟間隔：

先看軟間隔的基本型形式：

$\min _{w, b} \frac{1}{2}\|w\|^{2}+C\sum_{i=1}^{n} max(0,1 - y_{i}\left(w^{T} x_{i}+b\right))\\$

稍微做一點變化：

$\min _{\boldsymbol{w}, b} \frac{1}{m} \sum_{i=1}^{m}( \max 0,1-y_{i}\left(\boldsymbol{w}^{\top} \boldsymbol{\phi}\left(\boldsymbol{x}_{i}\right)+b\right)+\frac{\lambda}{2}\|\boldsymbol{w}\|^{2}\\$

這樣寫是為了符合標准的損失函數+正則化的樣子，其中, 第一項稱為經驗風險, 度量了模型對訓練數據的擬合程度; 第二項稱為結構風險, 也稱為正則化項, 度量了模型自身的復雜度. 正則化項削減了假設空間, 從而降低過擬合風險. λ 是個可調節的超參數, 用於權衡經驗風險和結構風險.

其中：

$\xi_{i} = \max \left(0,1-y_{i}\left(\boldsymbol{w}^{\top} \boldsymbol{\phi}\left(\boldsymbol{x}_{i}\right)+b\right)\right) \geq 0\\$

$\lambda=\frac{1}{m C}\\$

這樣的話給上式乘以mc，就會變成上上式了。

13. SVM中的函數間隔和幾何間隔是什么？

對於訓練樣本 $x_i$ ，超平面 $(w, b)$ ，點距離超平面越遠表示預測的置信度越高。另外，真實標簽是 $y_i$ ，對於二分類問題，取值為1或-1。函數間隔可以反應分類的正確性和置信度，其公式如下：

$y_i(wx_i + b)$

對於一個訓練集來說，函數距離越小，超平面越好。但是函數距離有一個問題，僅僅增加w和b的值就可以放大距離，這並非我們想要的結果。因此對上式進行歸一化，得到幾何間隔如下：

$y_i(\frac{w}{||w||}x_i + \frac{b}{||w||})$

14. 為什么要將求解 SVM 的原始問題轉換為其對偶問題

使對偶問題更易求解，當我們尋找帶約束的最優化問題時，為了使問題變得易於處理，可以把目標函數和約束全部融入拉格朗日函數，再求解其對偶問題來尋找最優解。
可以自然引入核函數，進而推廣到非線性分類問題。

15. 講一下SVM中松弛變量 $\varepsilon$ 和懲罰因子 $C$

松弛變量和懲罰因子是為了把線性可分SVM拓展為線性不可分SVM的。只有被決策面分類錯誤的點（線性不可分點）才會有松弛變量，然后懲罰因子是對線性不可分點的懲罰。增大懲罰因子，模型泛化性能變弱，懲罰因子無窮大時，退化為線性可分SVM（硬間隔）；減少懲罰因子，模型泛化性能變好。

並非所有的樣本點都有一個松弛變量與其對應。實際上只有“離群點”才有，或者說，所有沒離群的點松弛變量都等於0
松弛變量的值實際上標示出了對應的點到底離群有多遠，值越大，點就越遠。
懲罰因子C決定了你有多重視離群點帶來的損失，顯然當所有離群點的松弛變量的和一定時，你定的C越大，對目標函數的損失也越大，此時就暗示着你非常不願意放棄這些離群點，最極端的情況是你把C定為無限大，這樣只要稍有一個點離群，目標函數的值馬上變成無限大，馬上讓問題變成無解，這就退化成了硬間隔問題。當C無窮大時，為了最小化損失函數，只能使松弛變量無窮小（趨近於0），等價於線性可分SVM。

16. SVM的優缺點：

優點：

由於SVM是一個凸優化問題，所以求得的解一定是全局最優而不是局部最優。
不僅適用於線性線性問題還適用於非線性問題(用核技巧)。
擁有高維樣本空間的數據也能用SVM，這是因為數據集的復雜度只取決於支持向量而不是數據集的維度，這在某種意義上避免了“維數災難”。
理論基礎比較完善(例如神經網絡就更像一個黑盒子)。

缺點：

二次規划問題求解將涉及m階矩陣的計算(m為樣本的個數), 因此SVM不適用於超大數據集。(SMO算法可以緩解這個問題)
只適用於二分類問題。(SVM的推廣SVR也適用於回歸問題；可以通過多個SVM的組合來解決多分類問題)

參考文獻：https://zhuanlan.zhihu.com/p/76946313

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 面試：Spring面試知識點總結 Spring面試知識點總結 Java面試知識點總結 Java基礎面試知識點總結網絡基礎面試知識點總結 Linux面試知識點總結 Java面試常見知識點總結(一) Java面試知識點總結及解析關於SVM的一些知識點高頻面試知識點總結，看看你能答對多少