目 錄
1. 回歸方程
2. 回歸分析的主要內容
3. 回歸模型的一般形式
4. 回歸分析與相關分析
1. 回歸方程
回歸分析是處理變量x與y之間的關系的一種統計方法和技術。所研究的變量之間的關系:即當給定x的值,y的值不能確定,只能通過一定的概率分布來描述。於是,稱給定x時y的條件數學期望 f(x) = E(y | x) 為隨機變量y對x的回歸函數,或稱為隨機變量y對x的均值回歸函數。該式從平均意義上刻畫了變量x與y之間的統計規律。
在實際問題中,把x稱為自變量,y稱為因變量。如果要由x預測y,就要利用x,y的觀測值,即樣本觀測值 (x1, y1), (x2, y2), (x3, y3), ... , (xn, yn) 來建立一個模型,當給定x值后,就代入此模型中算出y一個值,這個值就稱為y的預測值。如何建立這個模型,這需要從樣本觀測值 (xi, yi) 出發,觀察 (xi, yi)在坐標系上的分布情況,若樣本點基本上分布在一條直線的周圍,因而要確定y與x的關系,可考慮用一個線性函數來描述:y = α + βx。函數中α,β尚不知道,這就需要根據樣本數據去進行估計。
當由樣本數據估計出α,β的值后,以估計值
,
分別代替式 y = α + βx 中的α,β,得方程
,這樣的方程就稱為回歸方程。這是因為因變量y與自變量x的關系呈線性關系,故稱式
為y對x的線性回歸方程。又因為
的建立依賴於觀察或試驗累積的樣本數據,所以又稱為經驗回歸方程,相對的稱為y = α + βx為理論回歸方程。理論回歸方程是設想把所研究問題的總體中每一個體的 (x, y) 值都測量了,利用全部結果所建立的的回歸方程y = α + βx,這在實際中辦不到的。 理論回歸方程中的α是y = α + βx所畫的直線在y軸上的截距,β為直線的斜率,分別稱為回歸常數和回歸系數。而方程
中的系數
,
被稱為經驗回歸常數和經驗回歸系數。
2. 回歸分析的主要內容
回歸分析研究的主要對象是客觀事物變量間的關系,它是建立在對客觀事物進行大量試驗和觀察的基礎上,用來尋找隱藏在那些看上去是不確定的現象中的統計規律性的統計方法。回歸分析是通過建立統計模型研究變量間相互關系的密切程度、結構狀態、模型預測的一種有力工具。
如果從19世紀初(1809年)Gauss提出最小二乘法算起,回歸分析的歷史已有二百年,從經典的回歸分析方法到近代的回歸分析方法,它們所研究的內容已非常豐富。如果按研究的方法來划分,回歸分析研究的范圍大致如下:

3. 回歸模型的一般形式
若變量x1, x2, x3, ..., xp與y之間是相關關系,常意味着每當x1, x2, x3, ..., xp取值確定后,y便有相應的概率分布與之對應。隨機變量y與相關變量x1, x2, x3, ..., xp之間的概率模型為 y=f(x1, x2, x3, ..., xp)+ε,其中隨機變量y稱為被解釋變量(因變量),x1, x2, x3, ..., xp稱為解釋變量(自變量)。f(x1, x2, x3, ..., xp)為一般變量x1, x2, x3, ..., xp的確定性關系,ε為隨機誤差。正是因為隨機誤差項ε的引入,才將變量之間的關系描述為一個隨機方程,可以借助隨機數學方法研究y與x1, x2, x3, ..., xp的關系。隨機誤差主要包括下列因素的影響:
(1)由於人們認識的局限或時間、費用、數據質量等制約未引入回歸模型但又對回歸被解釋變量y有影響的因素;
(2)樣本數據的采集過程中變量觀測值的觀測誤差的影響;
(3)理論模型設定誤差的影響;
(4)其他隨機因素的影響。
模型 y=f(x1, x2, x3, ..., xp)+ε 清楚的表達了變量x1, x2, x3, ..., xp與隨機變量y的相關關系,它由兩部分組成:一部分是確定性函數關系,由回歸函數f(x1, x2, x3, ..., xp)給出;另一部分是隨機誤差項 ε。由此可見模型准確地表達了相關關系那種既有聯系又不確定的特點。
當概率模型中的回歸函數為線性函數時,既有 y=β0+β1x1+β1x2+...+βpxp+ε ,其中β0, β1, β2, ..., βp為未知參數,常稱為回歸系數。
如果(xi1, xi2, ..., xip; yi), i = 1, 2, ..., n是式 y=β0+β1x1+β1x2+...+βpxp+ε 中變量(x1, x2, ..., xp; y)的一組觀測值,則線性回歸模型可表示為
yi = β0+β1xi1+β2xi2+...+βpxip+εi , i = 1, 2, ..., n.
為了估計模型參數的需要,古典線性回歸模型通常應滿足以下幾個基本假設:
(1)解釋變量x是非隨機變量,觀測值x1, x2, ..., xp是常數;
(2)等方差及不相關的假定條件為

這個條件稱為Gauss-Markov條件。在此條件下,便可得到關於回歸系數的最小二乘估計及σ2估計的一些重要性質,如回歸系數的最小二乘估計是回歸系數的最小方差線性無偏估計等;
(3)正太分布的假定條件為

在此條件下便可得到關於回歸系數的最小二乘估計及σ2估計的進一步結果,如它們分別是回歸系數及σ2的最小方差無偏估計等,並且可以做回歸的顯著性檢驗及區間估計;
(4)為了便於數學上的處理,還要求 n > p,即樣本容量的個數要多於解釋變量的個數。
在整個回歸分析中,線性回歸的數學模型最為重要。一方面是因為線性回歸的應用最廣泛;另一方面是只有在回歸模型為線性的假定下,才能得到比較深入和一般的結果;再就是有許多非線性的回歸模型可以通過適當的轉化變為線性回歸問題進行處理。
對線性回歸模型通常要研究的問題有:
(1)如何根據樣本(xi1, xi2, ..., xip ; yi),i = 1, 2, ..., n求出β0, β1, β2, ..., βp及方差σ2的估計;
(2)對回歸方程及回歸系數的種種假設進行檢驗;
(3)如何根據回歸方程進行預測和控制,以及如何進行實際問題的結構分析。
4. 回歸分析與相關分析
回歸分析和相關分析都是研究變量之間的不確定關系的方式。應用中,兩種分析方法相互結合和滲透,但它們研究的側重點和應用面不同。它們的差別主要有以下幾點:
(1)回歸分析着重尋求變量之間近似的函數關系。相關分析着重尋求一些數量性的指標,以刻畫有關變量之間關系深淺的程度;
(2)在回歸分析中,變量y稱為因變量,處在被解釋的特殊地位。在相關分析中,變量y與變量x處於平等的地位,即研究變量y與變量x的密切程度與研究變量x與變量y的密切程度是一樣的;
(3)相關分析中所涉及的變量y與x全是隨機變量。而回歸分析中,因變量y是隨機變量,自變量x可以是隨機變量,也可以是非隨機的確定變量。通常的回歸模型中,總是假定x是非隨機的固定變量;
(4)相關分析的研究主要是為刻畫兩類變量間線性相關的密切程度。而回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預測和控制。
由於回歸分析與相關分析的研究側重不同,使得它們的研究方法也大不相同。
