通常說的SVM與邏輯回歸的聯系一般指的是軟間隔的SVM與邏輯回歸之間的關系,硬間隔的SVM應該是與感知機模型的區別和聯系。而且工程中也不能要求所有的點都正確分類,訓練數據中噪聲的存在使得完全正確分類很可能造成過擬合。
軟間隔SVM與邏輯回歸的聯系
要說軟間隔SVM與聯系就要看軟間隔SVM的緣由。
軟間隔SVM表示樣本數據不必要求全部正確分類,允許少量的數據點犯錯。於是將硬間隔SVM的優化目標由:
變成硬間隔的優化目標:
在上面的優化目標中加上了懲罰項,C越大懲罰越大允許的錯誤越小。但是直接使用0/1損失函數的話其非凸、非連續,數學性質不好優化起來比較復雜,因此需要使用其他的數學性能較好的函數進行替換,替代損失函數一般有較好的數學性質。常用的三種替代函數:
1、hinge損失:
2、指數損失:
3、對呂損失:
一般的軟間隔SVM采用的是hinge損失函數進行替代,可以得到常見的軟件的SVM的優化目標函數。如果采用的是對率損失函數進行替代那么就和邏輯回歸的優化目標幾乎相同,這就得到了軟間隔SVM與邏輯回歸的數學上的聯系,因此一般來說SVM的性能和邏輯回歸的性能差不多。
軟間隔SVM與邏輯回歸的區別
1、邏輯回歸通過輸出預測概率后根據閾值進行判斷類別,SVM則直接輸出分割超平面,然后使用0/1函數對距離進行分類,不能直接輸出概率值,如果需要SVM輸出概率值則需要進行特殊處理,可以根據距離的大小進行歸一化概率輸出。
2、邏輯回歸可以使用多閾值然后進行多分類,SVM則需要進行推廣。
3、SVM在訓練過程只需要支持向量的,依賴的訓練樣本數較小,而邏輯回歸則是需要全部的訓練樣本數據,在訓練時開銷更大。