1、公式法推導
- 已知數據集 (X,Y),X、Y 均為列向量,列內第 i 行代表 X、Y 的一個樣本 xi、yi
- 假設 X 和 Y 滿足線性映射:Y=WTX
- 則預測值與真實值之間的誤差(距離)為

-
- PS:因為 YTXw 是一個實數,因此 YTXw =wTXTY
- 則權重矩陣 w 的最小二乘估計值
為:

2、幾何法推導
- 假設
- X,Y 是高維向量(維度大於2)
- 預測空間
為二維空間,即預測函數將高維向量 X 映射到二維空間
如下圖,
為真實標簽向量,
為預測標簽向量,
和
是二維預測空間的坐標軸,
為垂直於映射空間且與高維標簽向量相交的法向量(由圖可知
)

- 如上圖,法向量

- 因為
與 X 各個坐標軸均垂直,所以有:

- 由上推導可知,最小二乘法的幾何意義在於,通過使(“標簽向量“ 與 ”預測空間坐標軸向量“之間的總距離)最小化,得出一個參數為 w 的映射函數,將特征為 X 的目標向量 Y 映射為預測空間的預測向量

3、概率角度推導
- 已知數據集(X,Y)
- 假設:
- 映射函數為 f(w)=wTx
- 真實標簽與預測值之間的關系為:y=f(w)+ε=wTx+ε
- 其中 ε~N(0,σ2)
- 由上述假設可知:

- 即

- 使用極大似然估計(MLE)計算 w 的估計值


- 上述求得的
,就是最開始使用的最小二乘法公式
