目 錄
1.預測和控制
預測
單值預測
區間預測
因變量新值的區間預測
因變量新值的平均值的區間估計
控制
2.回歸系數的解釋
3.回歸應用的問題
預測和控制
建立回歸模型的目的就是為了應用,回歸模型最重要的應用是預測和控制。
一、 預測
1、 單值預測
單值預測就是用單個值作為因變量新值的預測值。比如研究某地區小麥單位產量y 與施肥量 x 之間的關系時,在 n 塊單位面積的土地上各施肥量 xi,最后測得相應的產量 yi ,建立回歸方程
。某農戶在一塊單位面積的土地上施肥 x = x0 時,該塊土地預期的小麥產量為
(1)
此即因變量新值的單值預測。預測目標是一個隨機變量,因而這個預測不能用無偏性來衡量。根據式
,說明預測值
與目標值y0 有相同的均值。
2、 區間預測
對於預測問題,除了知道預測值外,還希望知道預測的精度,這就需要做區間預測。即給出小麥產量的一個預測值范圍。給一個預測值范圍比只給出單值更可信。問題也就是:對於給定的顯著性水平α,找一個區間(T1, T2),使對應於某特定的x0的實際值y0以 1-α 的概率被區間(T1, T2)所包含,用式子表示為
P(T1 < y0 < T2) = 1 – α. (2)
對因變量的區間預測又分為兩種情況:一種是對因變量新值的區間預測,另一種是對因變量新值的平均值的區間預測。
(1)因變量新值的區間預測(y0 的置信區間)
首先計算
的分布,再利用獨立的關系設置統計量。
①
的分布
∵
均為y1, y2, …, yn 的線性組合
∴
也是 y1, y2, …, yn 的線性組合
正態假定下
~ 正態分布, 其期望值為
To : 計算
∵ 
∴ 
∴
(3)
記
(4)
為新值x0的杠桿值,則(3)式簡寫為:
(5)
② 統計量
∵
是用先前獨立觀測到的隨機變量 y1, y2, …, yn 的線性組合
∴ 新值y0 與先前觀測值獨立
∴ y0 與
是獨立的
∴ 
∵
∴
(6)
進而可知統計量:
(7)
可得
(8)
∴ y0 的置信水平為 1-α 的置信區間為
(9)
當樣本容量 n 較大,
較小時,h00接近零,y0的置信水平為95%的置信區間近似為
(10)
由公式(8)可以看出,當顯著性水平α確定,樣本容量 n 越大,Lxx越大,x0 越靠近x的均值,y0估計值的方差越小,則置信區間長度越短,此時的預測精度越高。
所以,為了提高預測精度,樣本量 n 應越大越好,並且不能太集中。
預測時,x0 不能偏離
太大,當
時,置信區間長度最短,此時預測結果最好。
(2)因變量新值的平均值的區間估計
如果該地區的一大片麥地單位面積施肥量同為x0,那么這一大片地小麥的平均單位產量如何?此時的問題是,有多個相等的x0,則預測的平均y0是多少?即估計平均值E(y0)。
E(y0) 的點估計仍為
,但是其區間估計卻與因變量單個新值y0的置信區間式(9)不同。
∵ E(y0) = β0 + β1x0 是常數
∴ 由式(3)可知
(11)
∴ 置信水平為 1-α 的置信區間為
(12)
二、 控制問題
控制問題相當於預測的反問題。該問題為控制 x 使 y 在一定的范圍內取值。
即要求 T1 < y < T2, 如何控制自變量 x ?
可以把問題描述為:控制 x 以 1-α 的概率保證把目標值 y 控制在 T1 < y < T2 中
p(T1 < y < T2) = 1 - α, 0 < α < 1
若 α = 0.05,由式(10)
有
(13)
將
代入上式(13)有:
時:
(14)
時:
(15)
應用要求:因變量 y 與自變量 x 之間有因果關系。
回歸系數的解釋問題
對於回歸方程
: 通常將
解釋為:當自變量 x 增加或減少一個單位時,平均地說,y 增加或減少
個單位。
對於該解釋需要加上幾個前提條件才能正確:
◆ x 變化區間在模型內
◆ x 以外的因素對 y 的影響要相當
◆ x 與 y 一起觀察所得,不由人事先控制,即x 處於合理的范圍內,且必須“自然而然的”產生,而不是認為制造(比如研究身高體重,通過認為減肥來控制變量)
回歸應用的問題
- 回歸模型作為內插方程,在回歸變量范圍內用於擬合模型
內插預測:預測時,x 取值在建模時樣本數據 x 的取值范圍之內(效果好,誤差小)
外推預測:預測時,x 取值超出了樣本數據 x 的取值范圍之內(效果可能不好)
因為建的回歸方程是直線方程,而理論上回歸方程一般並非是嚴格的直線。
2. 對 x值的處理在最小二乘擬合中扮演重要角色
所有點在決定回歸直線高度中有着相等的權重,但斜率受 x 偏遠點的影響更強烈,需要提出異常點作另外分析。
3. 離群點是與數據中的其他點有相當大區別的觀測值,可以嚴重干擾最小二乘擬合,需要區分該點是由錯誤導致的壞值還是與探索過程相關的十分有用的證據。
4. 回歸分析(處理相關性問題):兩個變量之間存在強烈的關系,並不意味着變量間存在任何因果關系(必然性問題)。
5. 某些應用中,預測 y 需要的回歸變量 x 的值是未知的。
