前言:當我跟你說起核的時候,你的腦海里一定是這樣的:

想到的一定是BOOMBOOM。談核色變,但是今天我們說的核卻溫和可愛的多了。
我記得我前面說到了SVM的核武器是核函數,這篇文章可以作為http://www.cnblogs.com/xiaohuahua108/p/5934282.html這篇文章的下篇。但是我這里首先強調一下,核函數不是僅僅在SVM里使用,他只是一個工具,把低維數據映射到高維數據的工具。
形如這樣:

本來是二維的數據,現在我們把它映射的高維。這里也需要說明下,低維到高維,維數沒有一個數量上的標准,可能就是無限維到無限維。
一 核
1.1 核的介紹
內核方法是一類用於模式分析或識別的算法,其最知名的使用是在支持向量機(SVM)。模式分析的一般任務是在一般類型的數據(例如序列,文本文檔,點集,向量,圖像等)中找到並研究一般類型的關系(例如聚類,排名,主成分,相關性,分類)圖表等)。內核方法將數據映射到更高維的空間,希望在這個更高維的空間中,數據可以變得更容易分離或更好的結構化。對這種映射的形式也沒有約束,這甚至可能導致無限維空間。然而,這種映射函數幾乎不需要計算的,所以可以說成是在低維空間計算高維空間內積的一個工具。
1.2 核的訣竅
內核技巧是一個非常有趣和強大的工具。 它是強大的,因為它提供了一個從線性到非線性的連接以及任何可以只表示兩個向量之間的點積的算法。 它來自如下事實:如果我們首先將我們的輸入數據映射到更高維的空間,那么我在這個高維的空間進行操作出的效果,在原來那個空間就表現為非線性。
現在,內核技巧非常有趣,因為不需要計算映射。 如果我們的算法只能根據兩個向量之間的內積表示,我們所需要的就是用一些其他合適的空間替換這個內積。 這就是"技巧"的地方:無論使用怎樣的點積,它都被內核函數替代。 核函數表示特征空間中的內積,通常表示為:
K(x,y)= <φ(x),φ(y)>
使用內核函數,該算法然后可以被攜帶到更高維空間中,而不將輸入點顯式映射到該空間中。 這是非常可取的,因為有時我們的高維特征空間甚至可以是無限維,因此不可能計算。
講了這么大一段廢話,還是我上文的加黑部分,在低維中計算高維數據的點積。
1.3 核函數的性質
核函數必須是連續的,對稱的,並且最優選地應該具有正(半)定Gram矩陣。據說滿足Mercer定理的核是正半定數,意味着它們的核矩陣只有非負特征值。使用肯定的內核確保優化問題將是凸的和解決方案將是唯一的。
然而,許多並非嚴格定義的核函數在實踐中表現得很好。一個例子是Sigmoid內核,盡管它廣泛使用,但它對於其參數的某些值不是正半定的。 Boughorbel(2005)也實驗證明,只有條件正定的內核在某些應用中可能勝過大多數經典內核。
內核還可以分為各向異性靜止,各向同性靜止,緊湊支撐,局部靜止,非穩定或可分離非平穩。此外,內核也可以標記為scale-invariant(規模不變)或scale-dependent(規模依賴),這是一個有趣的屬性,因為尺度不變內核驅動訓練過程不變的數據的縮放。
補充:Mercer 定理:任何半正定的函數都可以作為核函數。所謂半正定的函數f(xi,xj),是指擁有訓練數據集合(x1,x2,...xn),我們定義一個矩陣的元素aij = f(xi,xj),這個矩陣式n*n的,如果這個矩陣是半正定的,那么f(xi,xj)就稱為半正定的函數。這個mercer定理不是核函數必要條件,只是一個充分條件,即還有不滿足mercer定理的函數也可以是核函數
1.4 如何選擇核
我導師說是世界性難題,反正我不懂,如果有懂得,可以私聊我哦。
但是據說高斯核效果很好。
二 幾種常用的核
2.1 線性核
線性內核是最簡單的內核函數。 它由內積<x,y>加上可選的常數c給出。 使用線性內核的內核算法通常等於它們的非內核對應物,即具有線性內核的KPCA與標准PCA相同。
表達式 :
2.2 多項式核函數
多項式核是非固定內核。 多項式內核非常適合於所有訓練數據都歸一化的問題。我記得一般都會把問題歸一化吧??
表達式:k(x,y)=(αx ^ T y + c)^ d
可調參數是斜率α,常數項c和多項式度d。
2.3 高斯核
高斯核是徑向基函數核的一個例子。
或者,它也可以使用來實現
可調參數sigma在內核的性能中起着主要作用,並且應該仔細地調整到手頭的問題。 如果過高估計,指數將幾乎呈線性,高維投影將開始失去其非線性功率。 另一方面,如果低估,該函數將缺乏正則化,並且決策邊界將對訓練數據中的噪聲高度敏感。
2.4指數的內核
指數核與高斯核密切相關,只有正態的平方被忽略。 它也是一個徑向基函數內核。
表達式:
。和高斯核確實很像,哈哈。
2.5 拉普拉斯算子核
拉普拉斯核心完全等同於指數內核,除了對sigma參數的變化不那么敏感。 作為等價的,它也是一個徑向基函數內核。
表達式:
重要的是注意,關於高斯內核的σ參數的觀察也適用於指數和拉普拉斯內核。
好了今天就講到這里,下次有時間在來和大家分享其他的核函數吧。。。如果感覺我寫的還可以,麻煩點個粉,或者點一個推薦哦。
