1.1 變量間的關系
互有聯系的變量之間根據其緊密程度的不同,可以有兩種關系,一種確定性關系,一種非確定性關系。
1.1.1 確定性關系
一個變量的變化能完全決定另一個變量的的變化。
比如,銀行一年期的存款利率為 \(2.55\%\),存入的本金用 \(x\) 表示,到期的本息用 \(y\) 表示,則有 \(y = x + 2.55\%x\)。
我們用一種更通用的形式表示這種確定性關系。變量 \(y\) 與 \(p\) 個變量 \(x_1\),\(x_2\),...,\(x_p\)之間存在的某種函數關系用下面形式表示(在后文對照一下非確定函數關系的形式表達):
對於完全確定的線性函數關系,各對應點完全落在一條直線上。
1.1.2 非確定性關系
現實中不少情況是,兩種事物之間有密切聯系,但它們的密切程度並沒有達到由一個可以完全確定另一個。
比如,糧食產量 \(y\) 與施肥量 \(x\) 之間有密切聯系,在一定范圍內,施肥量越多,糧食產量就越高。但是,施肥量並不能完全確定糧食產量,因為糧食產量還與其他因素有關,如降雨量、田間管理水平等。因此糧食產量 \(y\) 與施肥量 \(x\) 之間不存在完全確定的函數關系。
對於非確定的線性函數關系,各對應點並不完全落在一條直線上。
在推斷統計中,我們把上述變量間具有密切關聯而又不能由某一個或某一些變量唯一確定另外一個變量的關系稱為變量間的統計關系或相關關系。
1.1.3 回歸分析與相關分析的區別
統計學的一大研究對象便是這種關系的規律。現代統計學中關於統計關系的研究已形成兩個重要分支,分別是回歸分析和相關分析。
回歸分析和相關分析都是研究變量間關系的統計學課題。它們的差別主要有以下幾點:
-
回歸分析中,變量 \(y\) 稱為因變量,處於被解釋的特殊地位(也叫被解釋變量);相關分析中,變量 \(y\) 與變量 \(x\) 處於平等地位,即研究變量 \(y\) 與變量 \(x\) 的密切程度與研究變量 \(x\) 與變量 \(y\) 的密切程度是一回事。
-
回歸分析中,因變量 \(y\) 是隨機變量,自變量 \(x\) 可以是隨機變量,也可以是確定變量;相關分析中,變量 \(y\) 與變量 \(x\) 全是隨機變量。在通常回歸模型中,我們總假定 \(x\) 是非隨機的確定變量。
-
回歸分析中,不僅可以揭示變量 \(x\) 對變量 \(y\) 的影響大小,還可以由回歸方程進行預測和控制;相關分析中,主要為了刻畫兩類變量間的線性相關的密切程度。
1.2 回歸方程
回歸分析是處理變量 \(x\) 與變量 \(y\) 之間關系的一種統計方法和技術。這里說的變量間的關系就是上述的統計關系,即當給定 \(x\) 的值,\(y\) 的值不能確定,只能通過一定概率分布來描述。我們稱給定 \(x\) 時 \(y\) 的條件數學期望:
為隨機變量 \(y\) 對 \(x\) 的回歸函數(或均值回歸函數)。上式從平均意義上刻畫了變量 \(x\) 和變量 \(y\) 之間的統計規律。
我們稱 \(x\) 為自變量,\(y\) 為因變量。
由 \(x\) 預測 \(y\),就是要利用 \(x\),\(y\) 的觀察值,即樣本觀測值
來建立一個函數,當給定值 \(x\) 后,帶入此函數中算出一個 \(y\) 值,這個值稱為 \(y\) 的預測值。
若我們考慮用一個線性函數來描述商品銷售量 \(y\) 與居民收入 \(x\) 之間的關系,即有線性方程:
參數 \(\alpha\),\(\beta\) 需要由樣本數據進行估計。以估計值 \(\hat{\alpha}\), \(\hat{\beta}\) 分別代替式 \((1.2.3)\) 中的 \(\alpha\) 和 \(\beta\),得方程:
因式 \((1.2.4)\) 的建立依賴於觀察或實驗積累的數據 \((1.2.2)\),所以又稱式 \((1.2.4)\) 為經驗回歸方程。相對地把式 \((1.2.3)\) 稱為理論回歸方程。
理論回歸方程是設想把所研究問題的總體中的每一個體的 \((x,y)\) 值都測量,利用全部結果而建立的回歸方程,這在實際建模中無法做到。能做到的是從總體中抽取有限個個體作為樣本,從樣本的信息估計出總體。
1.3 回歸模型
1.3.1 回歸模型一般形式
如果變量 \(x_1\),\(x_2\),...,\(x_p\) 與隨機變量 \(y\) 之間存在着統計關系(或相關關系),通常意味着當確定 \(x_1\),\(x_2\),...,\(x_p\) 的值后,\(y\) 便有相應的概率分布與之對應。可用概率模型描述:
式中,隨機變量 \(y\) 稱為被解釋變量(因變量);變量 \(x_1\),\(x_2\),...,\(x_p\)稱為解釋變量(自變量);\(\varepsilon\) 為隨機誤差。由於客觀現象是錯綜復雜的,對一個自然現象很難用有限個因素來准確說明,隨機誤差項可以概括表示由於人們的認識,以及其他客觀原因的局限而沒有考慮的種種偶然因素。隨機誤差項主要包括下列因素的影響:
-
由於人們認識的局限或時間、費用、數據質量等的制約未引入回歸模型但又對回歸被解釋變量 \(y\) 有影響的因素。
-
樣本數據的采集過程中變量觀測值的觀測誤差。
-
理論模型設定的誤差。
-
其他隨機因素。
當概率模型式 \((1.3.1)\) 中回歸模型為線性函數時,即有
式中,\(\beta_0、\beta_1、\cdots、\beta_p\) 為未知參數,常稱為回歸系數。
線性回歸模型的“線性”是針對未知參數 \(\beta_i\) 而言的。回歸解釋變量的線性是非本質的,因為解釋變量是非線性的,常可以通過變量替換把它轉化為線性的。
如果 \((x_{i1}, x_{i2}, \cdots, x_{ip}; y_i)\) 是式 \((1.6)\) 中變量 \((x_{1}, x_{2}, \cdots, x_{p}; y)\) 的一組觀測值,則線性回歸模型可表示為:
1.3.2 模型基本假設
為估計模型參數,古典線性回歸模型通常應滿足以下幾個基本假設。
-
解釋變量 \(x_1, x_2, \cdots, x_p\) 是非隨機變量,觀測值 \(x_{i1},x_{i2}, \cdots, x_{ip}\) 是常數。
-
等方差及不相關假設條件,該條件稱為高斯-馬爾可夫(Gauss-Markov)條件,簡稱G-M條件:
- 正態分布的假定條件為:
- 為了便於數學上的處理,還要求 \(n > p\),即樣本量個數多於解釋變量的個數。
1.3.3 線性回歸模型研究的問題
-
如何根據樣本求出回歸模型中各個參數的估計。(參數估計)
-
對回歸方程以及回歸系數的種種假設進行檢驗。(參數假設檢驗與非參數假設檢驗)
-
如何根據回歸方程進行預測和控制以及如何進行實際問題的結構分析。
1.4 實際問題回歸模型的建立過程
用圖表示回歸模型的建立過程。
1.4.1 根據研究目的設置指標變量
對一個具體的問題,當研究目的確定之后,被解釋變量就容易確定下來,被解釋變量一般直接表達研究的目的。而對被解釋變量有影響的解釋變量的確定就不太容易。
-
一是由於認識上的局限性,可能並不知道對被解釋變量有重要影響的因素。
-
二是為了保證模型參數估計的有效性,設置的解釋變量之間應該是不相關的,而我們是很難確定哪些變量相關的,哪些變量是不相關的。
-
三是從實際出發,有一個非常重要的變量應該引進,但是在實際中並沒有這樣的統計數據。(此時,可以考慮用相近的變量代替,或者由其他幾個指標復合成一個新的指標)
在選擇變量時應注意要與專門領域的專家合作,幫助更好地確定模型變量。
另外,不要認為一個回歸模型所涉及的解釋變量越多越好。引入變量過多,可能選擇了一些與問題無關的變量,還可能由於一些變量相關性很強,它們所反映的信息有較大重疊,從而出現共線性問題。變量過多也會使計算工作量過大,從而計算誤差增大,估計的模型參數精度不高。
1.4.2 收集整理統計數據
常用的樣本數據分為時間序列數據和橫截面數據。
(1) 時間序列數據
時間序列數據就是按時間順序排列的統計數據。對於收集到的時間序列資料,要特別注意數據的可比性和數據的統計口徑問題。如歷年的國民收入數據,是否按可比價格計算。中國改革開放前,幾十年物價不變,而 \(20\) 世紀 \(80\) 年代初開始,物價幾乎直線上漲,那么直接比較價格就不能反映一個國民的收入。如在宏觀經濟研究中,國內生產總值(GDP)與國民生產總值(GNP)二者在內容上一致,但在計算口徑上不同。
時間序列數據容易產生模型中隨機誤差項的序列相關,這是因為許多經濟變量的前后期之間總是有關聯的。對於具有隨機隨機誤差項序列相關的情況,就要通過對數據的某種計算整理來消除序列相關性。最常用的處理方法是差分法。
(2) 橫截面數據
橫截面數據即在同一時間截面上的統計數據。如同一年在不同地塊上測量的施肥量與小麥產量實驗的統計數據就是橫截面數據。
用橫截面數據做樣本時,容易產生異方差性。這是因為一個回歸模型往往涉及眾多解釋變量,如果其中某一個因素或某一些因素隨着解釋變量觀測值的變化而對被解釋變量產生不同的影響,就產生異方差性。
如在研究城鎮居民收入與購買消費品的關系時,用 \(x_i\) 表示第 \(i\) 戶的收入量,\(y_i\) 表示第 \(i\) 戶的購買量。購買回歸模型為:
在此模型中,隨機項 \(\varepsilon_i\) 就具有不同的方差。因為在購買行為中,低收入家庭購買行為差異性較小,大多購買生活必需品;高收入家庭購買行為差異很大,高檔消費品很多,他們選擇的余地很大,這樣購買物品所花費的差異就比較大。此時稱隨機項 \(\varepsilon_i\) 具有異方差性。
(3) 其余
統計數據的整理不僅要把一些變量數據進行折算、差分,有時還要把數據進行對數化、標准化等,有時還需剔除個別特別大或特別小的“野值”。當然,有時還需用插值的方法把空缺的數據補齊。
1.4.3 確定理論回歸模型的數學形式
收集到所設置的變量的數據后,要確定適當的數學形式來描述變量之間的關系。理論回歸模型確立的情況可以大概分為以下幾種:
-
建立回歸模型時,可以將所有樣本點在直角坐標系上畫出來,根據點的分布狀況選擇合適的理論回歸模型。
-
更多的是,根據一些之前的理論和研究結果來確定所用回歸模型的數學形式。(機理模型)
-
有時無法根據所獲信息確定模型的形式,則可以采用不同的形式進行計算機模擬,從不同的模擬結果中選擇較好的一個作為理論回歸模型。
1.4.4 估計模型參數
模型參數的估計方法中最常用的是普通最小二乘法,它是經典的估計方法。對於不滿足模型基本假設的回歸問題,人們給出了種種新方法,如嶺回歸、主成分回歸、偏最小二乘回歸等,它們本身也都以普通最小二乘法作為基礎。除此之外,還有分位數參數估計、貝葉斯參數估計等比較流行的新方法。
1.4.5 模型檢驗與修改
在模型未知參數估計出來之后,就初步建立了一個回歸模型。如果直接使用該模型,做預測、控制和分析,顯然是不夠的。這個模型是否真正揭示了被解釋變量與解釋變量之間的關系,必須對模型進行檢驗才能確定。
對於回歸模型,一般需要進行統計檢驗和模型意義檢驗。
如果一個回歸模型沒有通過統計檢驗,或者通過了統計檢驗而沒有合理的經濟意義,就需要對其進行修改。
(1) 統計檢驗
統計檢驗通常是對回歸方程的顯著性檢驗,以及回歸系數的顯著性檢驗,還有擬合優度的檢驗、隨機誤差項的序列相關檢驗、異方差性檢驗、解釋變量的多重共線性檢驗等。
(2) 模型意義檢驗
可能會碰到這樣一種情況,回歸模型經過了一系列統計檢驗,可就得不到合理的回歸模型解釋。這有時候是由於樣本容量的限制,或多重共線性問題,數據質量問題,或者其他問題。
1.4.6 回歸模型應用
當一個問題的回歸模型通過了各種統計檢驗,且模型具有合理的解釋,就可以運用這個模型來研究進一步的問題。
回歸模型不僅可以解釋變量間的因果關系,還可以考慮給定被解釋變量值來控制解釋變量值,此外回歸模型也能用於預測。