三、核函數
1、核技巧
若不存在一個能正確划分兩類樣本的超平面, 怎么辦 ?
數學上可以證明,如果原始空間是有限維,即屬性數有限,則一定存在一個高維特征空間使樣本可分。將樣本從原始空間映射到一個更高維的特征空間 , 使樣本在這個特征空間內線性可分。
我們的數據集有時候是非線性可分的情況,如下圖:

對於非線性的情況,SVM 的處理方式就是選擇一個核函數。簡而言之:在線性不可分的情況下,SVM 通過某種事先選擇的非線性映射(核函數)將輸入變量映到一個高維特征空間,將其變成在高維空間線性可分,在這個高維空間中構造最優分類超平面。如將本關上圖數據集映射成如下情況:

2、核函數計算

這里涉及到兩個樣本在特征空間內的內積,由於特征空間的維數可能很高,甚至無窮維,直接計算通常是困難的,為了避開這個障礙,我們可以設想這樣一個函數。

任意兩個樣本的核函數值構成的矩陣,任何一個核函數都隱式的定義了一個特征空間,當樣本線性不可分時,我們需要將樣本映射到高維空間內,但我們不知道哪個核函數合適,因此說核函數的選擇成為決定支持向量機性能的關鍵。

基本經驗:文本數據常用線性核,情況不明時可先嘗試高斯核。


