1. 前言
在機器學習的分類問題領域中,有兩個平分秋色的算法,就是邏輯回歸和支持向量機,這兩個算法個有千秋,在不同的問題中有不同的表現效果,下面我們就對它們的區別和聯系做一個簡單的總結。
2. LR和SVM的聯系
- 都是監督的分類算法。
- 都是線性分類方法 (不考慮核函數時)。
- 都是判別模型。
3. LR和SVM的不同
- 損失函數的不同,LR是對數損失函數,SVM是hinge損失函數。
- SVM不能產生概率,LR可以產生概率。
- SVM自帶結構風險最小化,LR則是經驗風險最小化。
- SVM會用核函數而LR一般不用核函數。
- LR和SVM在實際應用的區別:根據經驗來看,對於小規模數據集,SVM的效果要好於LR,但是大數據中,SVM的計算復雜度受到限制,而LR因為訓練簡單,可以在線訓練,所以經常會被大量采用。
4. 概念解釋
- 判別模型:是直接生成一個表示或者的判別函數(或預測模型),SVM和LR,KNN,決策樹都是判別模型。
- 生成模型:是先計算聯合概率分布然后通過貝葉斯公式轉化為條件概率,朴素貝葉斯,隱馬爾可夫模型是生成模型。
- 經驗風險:對所有訓練樣本都求一次損失函數,再累加求平均。即,模型\(f(x)\)對訓練樣本中所有樣本的預測能力。
- 期望風險:對所有樣本(包含未知樣本和已知的訓練樣本)的預測能力,是全局概念。(經驗風險則是局部概念,僅僅表示決策函數對訓練數據集里的樣本的預測能力。)
- 結構風險:對經驗風險和期望風險的折中,在經驗風險函數后面加一個正則化項(懲罰項),是一個大於0的系數\(\lambda\)。\(J(f)\)表示的是模型的復雜度。