線性模型是機器學習中最簡單的,最基礎的模型結果,常常被應用於分類、回歸等學習任務中。
回歸和分類區別:
- 回歸:預測值是一個連續的實數;
- 分類:預測值是離散的類別數據。
1. 線性模型做回歸任務中----線性回歸方法,常見的損失函數是均方誤差,其目標是最小化損失函數。以下是均方誤差表達式:
那么基於均方誤差來求解模型的方法稱為最小二乘法。
最小二乘法思想:尋找一個超平面,使得訓練數據集中所有樣本點到超平面的距離之和最小。
總結:
缺點與改進:線性回歸是采用超平面來擬合所有的訓練數據,但如果數據不呈線性分布關系時,線性模型得到的結果是欠擬合的(ps:欠擬合就時特征學習的不夠)。如果解決欠擬合的問題,有兩種方式:
第一種方法:挖掘更多的特征,比如不同的特征之間的組合,但這樣做會使得模型更復雜,而且好的特征選取並不是一件簡單的事;
第二種方法:通過修改線性回歸,這時出現的方法是“局部加權線性回歸(LWR)”,該方法使得我們在不添加新特征的前提下,獲得近似的效果。該方法只需將損失函數修改為:
但是,LWR也有不足。最大的缺點是空間開銷比較大,在線性回歸模型中,當訓練得到參數的最優解,就可以得到新數據的預測輸出,但LWR除了保留參數得到最優解外,還要保留全部的訓練數據,以求取每一個訓練數據對應於新數據的權重值。
2. 線性模型來進行分類學習----Logistics回歸:基本思想是在空間中構造一個合理的超平面,把空間區域划分為兩個子控件,每一種類別都在平面的某一側。
該算法一般采用的是Sigmoid函數:它可以將輸入數據壓縮到0到1的范圍內,得到的結果不是二值輸出,而是一個概率值,通過這個數值,可以查看輸入數據分別屬於0類或屬於1類的概率。
特別地,以上兩種線性模型,都是廣義線性模型的特殊形式。