1 預備知識
假定,我們對最小二乘法的代數解釋已經確定無疑。為什么需要幾何解釋?答案是首先從數學概念上講,存在這樣的知識體系,需要把他們挖掘出來。其次,(出於實用目的)為了數值計算的需要。
要對最小二乘法做幾何解釋,首先要引入一個概念,就是子空間的“張成”:
1)有N維線性空間ΩN,從ΩN中抽取k(k<N)個線性無關向量s1,s2,...,sm,則對於任意線性組合a1s1+a2s2,...+aksk構成ΩN的子空間,稱x1,x2,...,在ΩN張成的子空間;
舉例解釋:比如在三維空間中,任意兩個非退化並線性無關向量可以張成一個平面,凡是能平鋪在平面上的向量,均可以用這兩個向量線性表出;
第二個要引入一個概念,就是所謂“最佳逼近元”:
2)對於凸集合M外一個點P,P到集合M的距離,就是P到“P在集合M的投影點S”的距離;其中S叫做P對M的最佳逼近元;
2 最小二乘法的一般解釋
最小二乘法恰好是一個尋早最佳逼近元的過程;下面以圖解釋這個尋優過程:
[問題] 如圖,對於給定數據集合Ω={Di} i:={1,2,3,4},試給出它們的最佳直線模擬;
首先假定目標的直線方程為:y = Ax + B;A和B是待定系數;有了這個直線的表達式,就可以將誤差的表達式寫出:
E = ∑i( yi - y )2 , i:={1,2,3,4}, [注解] yi是原始數據Di點的y坐標輸入值,比如y2=0.98,y3 = 1.76等;
等價寫法: E = ∑i( yi - Axi - B )2 , i 屬於 {1,2,3,4,5}
∂E/∂A = 2×∑i(yi - Axi - B)×(- xi )= 0 (式1)
∂E/∂B = 2×∑i(yi - Axi - B)×(- 1 )= 0 (式2)
這里通過(式1)和(式2)聯立方程,消元法寫出A和B的表達式,解出A和B,毫無幾何意義可談!
然而,本文要說的真正中心,從這里剛剛開始;讓我們站在線性空間的立場,從原始輸入數據開始,一步一步展開討論;
3 最小二乘法的幾何解釋
原始數據的矩陣寫法:(注意,一切運算結果,都出自這些原始數據,沒有附加任何條件)
注意,原始數據是5個點,則X、Y就是5×1維,如果有N個原始數,X、Y就是N×1維向量,這一點須看清楚!因而下面討論請把思維切換到N=5維的線性空間中;
對於y = Ax + B這個方程,將原始數據W的代入后:
顯然,這是一組不相容方程組,這類方程看似無解,沒有多大意義,其實不然!我們可以找到最佳的一組逼近系數(A,B)作為最后解;上述方程在五維空間中的表達如下:
在Y:=AX+BI中,“:=”這里表示“逼近”的意思;考察X和I兩個向量:
X和I張成一個平面,這里起名為Sp平面; 注意:任何兩個向量,只要超過1維,並且這兩個向量不線性相關,就能張成一個平面(超平面)。
重復一下[最佳逼近投影定理] 如果有集合Ω和該集合外一點V,V到Ω的距離,就是V在Ω的投影V’到V的距離即:d(Ω,V) = d(V’,V);
所以,這里Y是Sp平面外的一點,Y’是Y在Sp的投影,Y到Sp的距離表示為D,如圖:
在圖中,Y’是具有橋梁作用的關鍵向量,首先:Y’在Sp平面內,因此它可以用X,I線性表示;其二:Y’是Y在Sp的投影,因此,D = Y-Y’垂直於X、I;
(Y-Y’)T . I = 0 和 (Y-Y’)T . X = 0
令W = [X,I],(Y-Y’)T . W = O , 其中O = [0,0] 表示零向量
C=[c1,c2]T, 以及Y' = Xc1 + Ic2,有:
(Y- Xc1 + Ic2)T . W = O , 有(Y- WC)T . W = O,
=>WT(Y-WC) = 0;
=>WTY-WTWC = 0;
=>WTY = WTWC ;
=> C = (WTW)-1WTY
到此,將C求出,等價寫法C=[A,B],表明方程y = Ax + B中的系數A和B被矩陣解出。
4 結論
通過將二維平面上的二維回歸問題,轉化到N維線性空間中的不相容方程組的形式,在通過最佳逼近元原理將逼近系數通過向量變換解出,在數值計算中,有很大實際意義。