主要內容:
-
什么是最小二乘
-
最小二乘的幾何意義
-
正交投影矩陣
什么是最小二乘?
假設我們手上有n組成對的數據,{(xi,yi):i=1…n},為了探究y變量與x變量的關系,我們希望用一個多項式來匹配它,可是多項式中的系數怎么確定呢?拿來拼湊肯定是不行的,最小二乘法告訴我們,這個多項式的系數應該讓每個點的誤差的平方之和最小。
(百度百科)最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。
最小二乘的幾何意義
最小二乘的幾何意義:最小二乘法中的幾何意義是高維空間中的一個向量在低維子空間的投影。
從上面的定義中,我們很難想象到最小二乘的幾何意義,那么我們通過一個簡單的例子來推導一下:
我們根據定義中的誤差平方之和最小化來擬合直線:
每個點的誤差表示:
最小誤差的平方和:
要求解上面的最小化問題,我們可以通過求導的方式得到,最好是轉化為矩陣表達形式:AX=b (這里x表示上述的系數a)
求得結果為:
如果通過超定方程的解法,很容易就可以得到上面結果。
先來說說向量表達形式:
小括號中表示:它是兩個向量 [1, ... , 1]T 和 [x1, ... , xn]T 的線性組合,換句話說,它是這兩個向量構成的二維子空間(想成一個平面就可以)的任意一點。
那么上面式子的幾何含義:表示向量 [y1, ... , yn]T(表示空間中的一點) 到這個二維子空間任意一點的距離;(向量的長度)
最小化上面式子的平方(向量長度的最小化)的幾何含義:尋找在 [1, ... , 1]T 和 [x1, ... , xn]T 構成的二維子空間上的一個點,使得向量 [y1, ... , yn]T 到這個點的距離最小。怎么找這個點呢?只要做一個幾何投影就好了。(如下圖)
如上圖所示,在三維空間中給定一個向量 u,以及由向量 v1,v2 構成的一個二維平面,向量 p 為 u 到這個平面的投影,它是 v1,v2 的線性組合:
利用投影的垂直性質,我們可以得到關於系數C的兩個方程:
令 V = [v1, v2], p = c1v1 + c2v2,將上述式子合並並轉化為矩陣形式(更容易擴展到高維空間),得到:
因此系數c的表達式為:
有沒有發現很熟悉?和式子 一模一樣有木有!!!
好了,我們回到原來的例子,看看幾何關系中的投影點和被投影的空間分別代表什么。
把圖中的 u 替換成 [y1, ... , yn]T ,把 v1,v2 分別替換成 [1, ... , 1]T 和 [x1, ... , xn]T, 系數 c1 和 c2 也就是我們要求的 a0,a1。
所以,最小二乘法的幾何意義是高維空間的一個向量(由y數據決定)在低維子空間(由x數據以及多項式的次數決定)的投影。
正交投影矩陣
上面提到了最小二乘的幾何意義就是空間中的投影,其實投影在線性代數中也是存在其數學公式的,可以聯系以下數學知識來理解最小二乘的幾何意義。
張成子空間:
張成子空間的投影矩陣:
最小二乘的投影解釋: