多項式擬合與線性回歸


https://blog.csdn.net/qq_31852975/article/details/72354578

多項式擬合與線性回歸

多項式擬合

設M次多項式為 fM(x,w)=w0+w1+w2x2+...+wMxM=Mj=0wjxj


當損失函數為L(w)=12Ni=1(Mj=0wjxjyi)

時,通過解L(w)最小的問題,可以擬合出該多項式。
這個問題在《統計學習方法》李航的第一章中介紹。 不過其中1.18帶入后的結果不正確。
具體錯誤見勘誤表http://www.hangli-hl.com/uploads/3/4/4/6/34465961/errata.pdf
具體推導過程http://blog.csdn.net/xiaolewennofollow/article/details/46757657

這里的多項表達式中,f是關於x的一個函數,式中只有一個變量x。

線性回歸

線性回歸假設特征與結果滿足線性關系。這里為什么可以假設為線性關系?為什么可以假設數據是獨立同分布的

  • 線性關系是用來假定樣本集X,Y之間的關系,有了這個關系才可以繼續推導出模型的參數向量θT
  • 監督學習假設X,Y滿足聯合概率分布P(X,Y)。訓練數據與測試數據被看做是依聯合概率分布獨立同分布的。
  • 統計學習假定數據存在一定的規律,進而對模型進行學習,但是對於系統具體的定義是未知的。

這里使用Andrew Ng講義中的公式定義。
對於n個特征的特征向量

hθ(x)=θ0+θ1x1+θ2x2+...+θnxn=θT(x)


這里同樣用平方損失函數

J(θ)=12i=1M(hθ(x(i))y(i))2(M,ii)

J(θ)最小越小,擬合的直線就越接近樣本。具體解釋見Andrew Ng公開課。通過兩種方式來求解θ

梯度下降( LMS algorithm)

而使得 J(θ)

下降最快的方向為 J(θ)θ

求偏導數的反方向。
這里為什么是反方向是梯度下降最小的方向?

  • 因為梯度方向為函數增長最快的方向,所以J(θ)
  • 的最小值則為減法。

對於每一個特征x,對J(θ)

求偏導。

θJ(θ)=(h(θ)(xj)y)xj


那么對於所有的樣本,通過如下的方式得到特征向量θ

遍歷n個樣本 直至收斂

θj:=θja(y(i)jh(θ)x(i)j)x(i)j(j)


這樣做的消耗是多少,如何優化為隨機梯度下降?

  • θT
  • 每下降一次都需要對所有的樣本計算一次。
  • 隨機梯度下降(SGD)為每一次遍歷只更新θT
中的一個值,從而減少了遍歷的次數,否則每次都需要遍歷更新 θT
  • 。除了減少時間復雜度,同時對於流式數據的處理可以實時更新模型。
  • 隨機梯度下降的另一種方式是,小批量的更新數據,並不是一次更新一個而是一次更新幾個。即幾個樣本計算一次下降值,對θT
  • 做下降。

最小二乘法( Least squares revisited)

通過直接對J(θ)

求導可得最小二乘優化方法。

θ=(XTX)1XTy⃗ 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM