核方法-核技巧-核函數


問題的引入

對於線性可分或者線性近似可分的數據集, 線性支持向量機可以很好的划分,如圖左。但是,對於圖右的數據集呢?很顯然, 這個數據集是沒有辦法用直線分開的。

我們的想法是在低維空間中不能線性分割的點集,通過轉化為高維空間中的點集時,很有可能變為線性可分的
插個題外話:看過《三體》的小伙伴們都知道,故事中的主人公進入到四維空間,發現“視野變得十分的開闊”, 進入四維的人,可以直接將三維中的人的內臟取出來,三體中女巫不是靠魔法取出大腦的,而是進入了四維空間, 將活人的大腦取出來了。在三維里面,內臟不還隔着肚皮嘛!但是進入到四維之后,可以做很多三維中看似不可能的事情。所以, 讓我們到高維度空間去玩玩吧!
簡單的例子, 我們引入了一個映射, 將二維空間映射到三維空間,這樣, 看似難以分開的數據集,到高維度里面,只需要簡單的一個平面。如下圖所示。

核方法

定義: 在低維空間中不能線性分割的點集,通過轉化為高維空間中的點集時,從而變為線性可分的,這就是核方法。

現在有二維的空間,我們知道,二維中任意的曲線可以表示成:

構造一個映射, 得到五維的空間
我們只取三個維度, 將二維的數據映射到三維中去,得到下圖:

這里有一個視頻,很好的演示了一個例子核方法例子
通過上面的描述, 好像我們通過一個映射, 將數據集映射到新的空間就能解決所有問題了,但是,這個時候會出現維度災難,剛剛我們只用到了二維的空間,就需要映射到五維的空間, 經過計算,三維就需要映射到十九維了!這個數字真的是指數爆炸,怎么解決這個問題呢, 我們就要用到核技巧啦。

核技巧

這里用一個簡單的例子來說明
設有兩個向量
映射定義為:
兩個向量的映射為:

兩個向量經過映射后的內積為:

前方高能, 我們也可以有:

上面的兩個式子是相似的, 實際上,經過維度縮放再加上常數維度就可以得到同樣的效果。區別在哪里呢?
第一個是, 先通過映射將數據集映射到高維空間,再計算內積
第二個是, 直接低維空間計算內積,而不需要顯式的定義映射
於是我們自然的可以定義核函數

核函數

怎么判斷呢?換句話來說,怎么判斷我們選的這個核函數有效呢?

核函數的判定:

.

具體的證明過程比較復雜, 可以參考《統計學習方法》和核函數判斷證明
下面介紹SVM中常用的核函數:

  • 線性核

    線性核,主要用於線性可分的情況,我們可以看到特征空間到輸入空間的維度是一樣的,其參數少速度快,對於線性可分數據,其分類效果很理想,因此我們通常首先嘗試用線性核函數來做分類,看看效果如何,如果不行再換別的

  • 高斯(RBF)核

    多項式核函數可以實現將低維的輸入空間映射到高緯的特征空間,但是多項式核函數的參數多,當多項式的階數比較高的時候,核矩陣的元素值將趨於無窮大或者無窮小,計算復雜度會大到無法計算。如果選得很大的話,高次特征上的權重實際上衰減得非常快,所以實際上(數值上近似一下)相當於一個低維的子空間;反過來,如果選得很小,則可以將任意的數據映射為線性可分——當然,這並不一定是好事,因為隨之而來的可能是非常嚴重的過擬合問題。不過,總的來說,通過調控參數,高斯核實際上具有相當高的靈活性,也是使用最廣泛的核函數之一。下圖所示的例子便是把低維線性不可分的數據通過高斯核函數映射到了高維空間:

  • 多項式核

多項式核函數可以實現將低維的輸入空間映射到高緯的特征空間,但是多項式核函數的參數多,當多項式的階數比較高的時候,核矩陣的元素值將趨於無窮大或者無窮小,計算復雜度會大到無法計算。

  • sigmoid核

采用sigmoid核函數,支持向量機實現的就是只包含一個隱層,激活函數為 Sigmoid 函數的神經網絡。應用SVM方法,隱含層節點數目(它確定神經網絡的結構)、隱含層節點對輸入節點的權值都是在設計(訓練)的過程中自動確定的。而且支持向量機的理論基礎決定了它最終求得的是全局最優值而不是局部最小值,也保證了它對於未知樣本的良好泛化能力而不會出現過學習現象。
如圖, 輸入層->隱藏層之間的權重是每個支撐向量,隱藏層的計算結果是支撐向量和輸入向量的內積,隱藏層->輸出層之間的權重是支撐向量對應的

因此,在選用核函數的時候,如果我們對我們的數據有一定的先驗知識,就利用先驗來選擇符合數據分布的核函數;如果不知道的話,通常使用交叉驗證的方法,來試用不同的核函數,誤差最下的即為效果最好的核函數,或者也可以將多個核函數結合起來,形成混合核函數。在吳恩達的課上,也曾經給出過一系列的選擇核函數的方法:

  • 如果特征的數量大到和樣本數量差不多,則選用LR或者線性核的SVM;
  • 如果特征的數量小,樣本的數量正常,則選用SVM+高斯核函數;
  • 如果特征的數量小,而樣本的數量很大,則需要手工添加一些特征從而變成第一種情況。

詳情參考:SVM幾種核優缺點比較


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM