_________________________________________________________________________________________________
The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptually implements the following idea: input vectors are non-linearly mapped to a very high-dimension feature space. In this feature space a linear decision surface is constructed. Special properties of the decision surface ensures high generalization ability of the learning machine. The idea behind the support-vector network was previously implemented for the restricted case where the training data can be separated without errors. We here extend this result to non-separable training data.
High generalization ability of support-vector networks utilizing polynomial input transformations is demonstrated. We also compare the performance of the support-vector network to various classical learning algorithms that all took part in a benchmark study of Optical Character Recognition.
摘自eptember 1995, Volume 20, Issue 3, pp 273–297
_________________________________________________________________________________________________
支持向量機,上世紀流行的一種用來解決二分類問題的模型。
它可以這樣理解————我們使用一組樣本(
,yi)(其中y∈{-1,1},稱為標簽;
為一維向量,稱為特征)來構建模型(訓練模型)。咋說呢,借助坐標系把這些點的特征在空間中表示出來,使用兩種顏色來表示y。需要尋找一個平面把這些點划分為兩類。這個平面就是我們的分類器。表示出來一看呢,有的是線性可分的,有的是線性不可分的。分別如下面二圖。


SVM剛誕生時遇到的問題大多都如前者,這樣我們直接計算“最大間隔超平面”就ok,這個稱為“線性支持向量機”,即最初的SVM;(作者————1963年,萬普尼克)
后來,遇到了更多復雜的情況(如第二張圖),大家希望能改進SVM,使它也能夠很好地處理后者,於是把核技巧拿到了SVM上,借助核函數
將原特征向量映射到高維空間,使它可以一刀划分開來(像上面的左圖),再計算“最大間隔超平面”。經過這一改進之后,SVM的泛化能力大大加強。這個稱為“非線性支持向量機”。(作者————1992年,Bernhard E. Boser、Isabelle M. Guyon和弗拉基米爾·萬普尼克)

_________________________________________________________________________________________________
1962年出生的線性支持向量機中有兩個概念:“硬間隔”,“軟間隔”。
“硬間隔”“軟間隔”是概念,而不是性質。像訓練數據的“線性可分”“線性不可分”就是一種性質。
如果我們的訓練數據集是線性可分的,那么可以找到一個超平面將訓練數據集嚴格地划開,分為兩類(可以想象成一個平板)。我們找兩個這樣的超平面,它們滿足1.兩者平行2.兩者距離最大(即下圖中的兩條虛線)。兩個超平面上的樣本x們稱為”支持向量“。“最大間隔超平面”(也就是分類器)是兩超平面的平均值。我們定義這兩個超平面間的區域為“間隔”。在這種情況下它就是“硬間隔”。
最大間隔超平面可以表示為: W*X+b = 0
兩個超平面可以分別表示為: W*X+b = 1,W*X+b = -1


對於數據線性不可分的情況(上圖),我們引入鉸鏈損失函數,
當約束條件 (1) 滿足時(也就是如果
位於邊距的正確一側)此函數為零。對於間隔的錯誤一側的數據,該函數的值與距間隔的距離成正比。 然后我們希望最小化(參數
用來權衡增加間隔大小與確保
位於間隔的正確一側之間的關系)
這時的“間隔”就是“軟間隔”。
總結一下,我們構建模型使用的數據集如果是嚴格可一刀分開的, 那么兩超平面間的間隔就是“硬間隔”;如果不是嚴格可以一刀分開的,兩超平面間的間隔就是“軟間隔”。這是針對線性支持向量機而言。哈哈哈有人說了線性支持向量機都五十年前的東西了,還不如說說非線性支持向量機。進入非線性支持向量機時代后,“硬間隔”“軟間隔”是對於核函數變換后的超平面而言的了。
現在對付“軟間隔”我們都用“泛化”和“擬合”了,上世紀機器學習剛起步的時候可沒這么多東西。可以說是冷兵器時代,如今科技發達,處理二分類問題我們可以用很多技術——邏輯回歸啊,神經網絡啊,各種聚類算法啊,等等。
參考:


![{\displaystyle \left[{\frac {1}{n}}\sum _{i=1}^{n}\max \left(0,1-y_{i}({\vec {w}}\cdot {\vec {x_{i}}}-b)\right)\right]+\lambda \lVert {\vec {w}}\rVert ^{2},}](/image/aHR0cHM6Ly93aWtpbWVkaWEub3JnL2FwaS9yZXN0X3YxL21lZGlhL21hdGgvcmVuZGVyL3N2Zy9lZGZkMjFhNGQzY2IyOTBlODcyZjUyNzQ4N2YwZGYzZDI5YTkwY2U3.png)