概念儲備:
梯度下降法,是假設條件更為廣泛(無約束)的,一種通過迭代更新來逐步進行的參數 優化方法,最終結果為局部最優;
廣義的最小二乘准則,是一種對於偏差程度的評估准則,與上兩者不同。
3.1基本形式
對於給定d個屬性描述的示例x=(x1,x2,......,xd),通過屬性的線性組合來進行預測。一般的寫法如下:
![]()
因此,線性模型具有很好的解釋性(understandability,comprehensibility),參數w代表每個屬性在回歸過程中的重要程度。
3.2 線性回歸
對於線性回歸,我們先考慮簡單的問題,輸入的屬性數目只有一個。
對於線性回歸而言,
均方誤差有非常好的幾何意義,它對應了常用的歐幾里得距離(歐式距離),
基於均方誤差最小化來進行模型求解的方法稱“最小二乘法”
在求解時,我們考慮XTX可能不滿秩,因此將對應多個接都能使得均方誤差最小化,選擇哪個解作為輸出,將由學習算法的偏好決定,最常見的方法是引入正則化。
廣義線性回歸,其中函數g(.)稱為“聯系函數”
3.3 對數幾率回歸(邏輯回歸)
利用回歸來實現分類,只需要找到一個單調可微函數將分類任務的真實標記y與線性回歸模型的預測值聯系起來。我們利用對數幾率函數代替單位階躍函數,如下:
![]()
對數幾率函數是一種“Sigmoid函數”,在神經網絡中扮演重要的作用。將輸出值轉化為接近0或者1的y值,
![]()
然后將上面這式子進行變形
![]()
若將y看做是樣本x作為正例的可能性,則1-y是其作為反例可能性,兩者之間的比值為y/1-y稱為幾率(odds),對幾率取對數則得到“對數幾率”。
邏輯回歸不僅能夠能夠實現對任務進行分類,同時可以得到近似概率預測
![]()
利用極大似然法(maximum likelihood method)進行估計w和b。
上述的函數是關於B的高階可導函數,根據凸優化理論,經典的數值優化算法如梯度下降法(gradient descent method)、牛頓法(Newton method)可求得最優解。
協方差矩陣計算的是不同維度之間的協方差,而不是不同樣本之間的。
