《機器學習(周志華)》筆記--支持向量機(3)--核函數:核技巧、核函數計算過程、特殊映射函數


三、核函數

 1、核技巧 

  若不存在一個能正確划分兩類樣本的超平面, 怎么辦 ?

  數學上可以證明,如果原始空間是有限維,即屬性數有限,則一定存在一個高維特征空間使樣本可分將樣本從原始空間映射到一個更高維的特征空間 , 使樣本在這個特征空間內線性可分。

  我們的數據集有時候是非線性可分的情況,如下圖:

        

   對於非線性的情況,SVM 的處理方式就是選擇一個核函數。簡而言之:在線性不可分的情況下,SVM 通過某種事先選擇的非線性映射(核函數)將輸入變量映到一個高維特征空間,將其變成在高維空間線性可分,在這個高維空間中構造最優分類超平面。如將本關上圖數據集映射成如下情況:

            

 2、核函數計算

      

  這里涉及到兩個樣本在特征空間內的內積,由於特征空間的維數可能很高,甚至無窮維,直接計算通常是困難的,為了避開這個障礙,我們可以設想這樣一個函數。

       

  任意兩個樣本的核函數值構成的矩陣,任何一個核函數都隱式的定義了一個特征空間,當樣本線性不可分時,我們需要將樣本映射到高維空間內,但我們不知道哪個核函數合適,因此說核函數的選擇成為決定支持向量機性能的關鍵。

        

  基本經驗:文本數據常用線性核,情況不明時可先嘗試高斯核。

        

           

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM