回歸是指利用樣本(已知數據),產生擬合方程,從而對(未知數據)進行預測。
用途:預測、判別合理性。
困難:①選定變量(多元);②避免多重共線性;③觀察擬合方程,避免過度擬合;④檢驗模型的合理性。
因變量與自變量的關系:①相關關系(非確定性關系,比如物理與化學成績相關性),使用相關系數衡量線性相關性的強弱;②函數關系(確定性關系)
相關系數求解:Pearson樣本積矩相關系數

注意,如果樣本是兩組配對的順序數據時,則采用Spearman等級相關系數(秩相關或名次相關)

公式中,分別表示
的名次(從大到小或從小到大)。
線性回歸中最小二乘法的應用
判斷直線擬合程度,如果是通過點向直線引垂線,由解析幾何點到直線的距離公式可知,涉及到開方,這樣不好求極值,所以改為由點向直線引豎直線求長度,去絕對值,
。
這回歸誤差/殘差平方和(二乘數)
為了使得二乘數RSS最小,則求RSS的極小值,該方法稱為最小二乘法

解二元一次方程組,得到a, b的估計值。
注意:回歸問題擅長於內推插值,而不擅長於外推歸納,在使用回歸模型做預測時要注意x適用的取值范圍。
(1)多元線性回歸模型
① 判定系數(模型對樣本數據的解釋程度)

②回歸系數檢驗統計量(變量的顯著性)
③線性回歸方程擬合程度檢驗統計量(模型的擬合程度)

(2)含虛擬變量的多元線性回歸模型

如果直接定義黃、白、黑分別為1,2,3,這樣是錯誤的
虛擬變量在這里起到調整截距作用
(3)逐步回歸
向前引入法:從一元回歸開始,逐步增加變量,使指標值達到最優為止;
向后剔除法:從全變量回歸開始,逐步刪去某個變量,使指標值。。。;
逐步篩選法:同時向前引入和向后刪除
(4)回歸診斷
①樣本是否符合正態分布假設,如果不符合,則檢驗和區間預測沒法做,這是因為很多檢驗和預測方法都是基於正態分布的假定之上;
②是否存在離群值導致模型產生較大誤差,比如輸入錯誤;
③線性模型是否合理;
④誤差是否滿足獨立性、等方差性、正態分布等假設條件,即不會隨y的改變而改變,誤差項不受y的影響;
⑤是否存在多重共線性,這會導致矩陣行列式值為0,則矩陣的逆會趨於無窮大,多元回歸模型的系數也會失真變大。
對應的解決方法:
① 擬合度檢驗,卡方統計量;
② 散點圖觀察等;
③ 統計量是否合理;
④ 殘差圖是否合理;
⑤ 逐步回歸,解決多重共線性的一種方法
(5)多重共線性
若存在多重共線性,則
經過中心化和標准化得到的向量,記
因此,如果存在多重共線性,則是沒辦法求解的,或者求解結果不穩定。
出現模型不穩定情況(魯棒性較低),當數據發生一小點變化時,結果就會發生很大變化,比如系數求出來很大,幾千萬、幾百萬;系數正負符號也會經常發生切變。
(注意:矩陣出現奇異性原因有兩個:①變量個數比樣本多;②出現多重共線性。)
多重共線性度量指標

如何找出哪些變量是多重共線性
