從核函數到SVM原理--sklearn-SVM實現

本文轉載自查看原文 2017-04-11 19:22 27720 機器學習/ sklearn/ 核函數/ SVM/ Python

SVM核函數及sklearn實現SVM

在SVM中，其中最重要的也是最核心的就是核函數的選取和參數選擇，當然這個需要大量的經驗來支撐。今天我們就是拋磚引玉形象的講解一下什么是核函數，及在SVM中在哪用到。

我們知道，SVM相對感知機而言，它可以解決線性不可分的問題，那么它是怎么解決的呢？它的解決思想很簡單，就是對原始數據的維度變換，一般是擴維變換，使得原樣本空間中的樣本點線性不可分，但是在變維之后的空間中樣本點是線性可分的，然后再變換后的高維空間中進行分類。

了解SVM原理，並且有凸優化理論知識的話，都應該知道SVM其實主要是在用對偶理論求解一個二次凸優化問題，其中對偶問題如下：

求的最終結果：

其中表示任選的一個支持向量

當然這是線性可分的情況，那么如果問題本身是線性不可分的情況呢，那就是先擴維后再計算，計算形式是一樣的：

其中表示原來的樣本擴維后的坐標。

從中可以看出，不管是不擴維的求解還是擴維的求解，在求解對偶問題的過程中都會用到各樣本點的內積的結果，那么這時候問題來了，在很多情況下，擴維可能會吧原數據擴到很高維(甚至無窮維)，這時候直接求內積是非常困難的，我們為了避免做這樣的事就提出了核函數的概念。

核函數：任意兩個樣本點在擴維后的空間的內積，如果等於這兩個樣本點在原來空間經過一個函數后的輸出，那么這個函數就叫核函數。

當然這是我自己的理解定義，意思就是這么個意思。也就是說：

這個函數f就是核函數。我們接下來舉一個例子：

為簡單起見，假設所有樣本點都是二維點，其值分別為(x,y)，，可以驗證任意兩個擴維后的樣本點在3維空間的內積等於原樣本點在2維空間的函數輸出：　　

有了這個核函數，以后的高維內積都可以轉化為低維的函數運算了，這里也就是只需要計算低維的內積，然后再平方。明顯問題得到解決且復雜度降低極大。總而言之，核函數它本質上隱含了從低維到高維的映射，從而避免直接計算高維的內積。

當然上面所介紹的只是眾多核函數中的一個示例，它其實是屬於多項式核函數這一類核函數中的一個特例。其實核函數還有很多種，相同種類但是不同參數的核函數效果又有所不同，需要說明的是並不是說所有的核函數都能顯示的寫出隱含的從低維到高維的擴維細節。成為核函數有滿足的條件Mercer’s condition。一般用得比較多比較成熟的核函數有如下幾個。

核函數英文為kernel function,因此一般這個函數符號一般用k不用 f。

★線性核函數：