SVM中的間隔最大化


參考鏈接:

1.https://blog.csdn.net/TaiJi1985/article/details/75087742

2.李航《統計學習方法》7.1節 線性可分支持向量機與硬間隔最大化

3.https://zhuanlan.zhihu.com/p/45444502,第三部分 手推SVM

 

本文目標:理解SVM的原始目標,即間隔最大化,並將其表示為約束最優化問題的轉換道理。

背景知識:假設已經知道了分離平面的參數w和b,函數間隔γ',幾何間隔γ,不懂的可以參考書本及其它。

       為了將線性可分的數據集徹底分開,並分得最好,SVM的原始目標是找到一個平面(用w,b表示,二維數據中是一條直線,如下圖所示),使得該平面與正負兩類樣本的最近樣本點的距離最大化。簡單的說,就是任給一個平面w,b,總有一個樣本點離它的距離最近(點到平面的距離,可以用來表示),過該樣本點作平行於分割平面的平面,兩個平面形成分隔帶。我們的目標是比較各種平面(無數個),找出一個平面使得“分隔帶最胖”。那么如何來表述“分隔帶最胖”呢?

(引自參考鏈接1)

 

       對於平面w,b來說,假設距離平面最近的點是,又由於該平面w,b可以將所有樣本點正確分類,即滿足,因此我們可以將上述最近點到平面w,b的距離改寫為,其中取值為+1或-1。因此我們的目標就是最大化,注意該式子中已經是離超平面w,b最近點了,稱為γ超平面w,b關於訓練數據集T的幾何間隔

 

       因此我們的原始問題:求得一個幾何間隔最大的分離超平面,可以表示為下述約束最優化問題

 

重要問題一:為何會出現第二行中的約束條件?

       有了這N個約束條件,好像w,b的可選范圍小了很多,跟一開始單純的最大化幾何間隔的任意選w,b有所背離啊?等等,這兒需要注意的是,一開始我們目標是最大化幾何間隔,這個幾何間隔其實是所有樣本點的幾何間隔中最小值,而所有樣本點的幾何間隔有可能是正數(被正確划分),也有可能是負數(被錯分)。但是我們一開始討論最大化幾何間隔的時候已經默認平面w,b把訓練集T中的所有樣本點都正確分類了,只有這樣我們才會要求“分隔帶最胖”啊,如果有錯分的,那分隔帶越胖就越不好了。因此滿足將所有樣本點都正確分類的w,b本來就沒多少(限制在一定的范圍內了,雖然還是有無數種可能),所以原本我們就要求w,b滿足,而且還得要求如下,

,以保證之前是離超平面w,b最近點的設定

重要問題二能否對約束最優化問題進行簡化?因為目前來看被優化的目標函數γ跟w,b和都有關系,有點不簡潔。

        解決思路是,對於任意的平面w,b,其實都有無數組參數λw,λbλ不為0都表示該平面。因此我每次選到一個w,b,就相應的知道了最近點(最近點其實是依賴於w,b的,稱為支持向量,個人理解也可以稱作支持樣本點),我都縮放一下w,b,使得函數間隔γ'=1,即:

。注意到,縮放w,b前后,其所代表的平面是同一個超平面;而且縮放w,b對於目標函數γ毫無影響,因為其分子分母都是縮放相同的倍數;再者,約束條件的不等號兩邊都是同時縮放相同的倍數,也無影響。因此,如果我們采用枚舉法來求解上述最優化問題(為直觀理解,其實是枚舉不完的),每次我們隨機考察一個平面(w,b),我們都縮放為(w',b')=(λw,λb),使得函數間隔γ'=1,那么我們依舊在考察同一個平面,依舊能算出和縮放前一樣的目標函數γ值,依舊符合同樣的約束條件。這么處理(特定縮放)有何好處呢?通過這樣的處理,我們把約束最優化問題可以轉化為如下形式:

 

 

       如此形式,簡潔明了多了。再者我們可以將max變為min,最大化與最小化是等價的,就得到了如下線性可分支持向量機學習的最優化問題:

 

PS:

       為加深上述重要問題二的理解,我們可以舉一個例子來驗證它。

       假設有A,B兩種w,b的方案,A平面的支持向量(最近點),B平面的支持向量,我們來比較A,B方案的優劣。

     1)首先在原始目標函數下,得到兩個平面的γ如下:

 

 

   我們假設那么我們換種思路來比較A方案與B方案,看看結果是否一致。

   2)令注意到在給定平面A的情況下這是一個數(其實就是平面A關於訓練集T的函數間隔)。

     我們令縮放為,則

   同理,對於平面B,我們可以將縮放為,則

     現在我們通過比較來確定哪個方案更好,是A還是B?

 

       所以我們發現結果是一致的,A優於B,而且目標函數值也與原目標函數值一致。至此,我們驗證了准確性,直觀感受了w,b縮放前后目標函數值的不變性。

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM