stata基礎(十五)——線性回歸的基本假定、估計回歸系數、擬合系數


一、回歸:回歸是研究變量間相互關系的方法

1、條件分布:因變量在自變量取不同值時的分布

如果因變量在自變量取不同值時的條件分布都相同,那么自變量對因變量沒有影響,否則就是有影響。

比較因變量在自變量取不同值時的條件分布過於復雜,一個簡化方法就是

比較自變量取不同值時因變量條件分布的均值——回歸

E(y|x) = f(x)

2.線性回歸:用線性函數來描述自變量與因變量條件均值的一種回歸方法。

3.四條基本假定:最重要的是前2條假定,一旦不滿足會導致估計結果有偏。——一定要保證函數設定正確,確保不要遺漏關鍵變量

(1)線性假定:y的條件均值為x的線性函數:E(y|x) = b0+b1x1+b2x2+...+bkxk

非線性關系可以通過非線性變換轉變成線性

(2)正交假定:

(3)獨立同分布假定:不滿足會導致估計結果沒有效率,但仍是無偏的。可以使用其他估計方法(如:OLS)獲得有效估計值,或使用穩健標准誤獲得正確的統計檢驗結果。

①同方差假定:

②無自相關:

常見的存在自相關的情形:

A.時間序列:同一個觀測對象在不同時點得到的結果。

B.整群抽樣

(4)正態分布假定:在小樣本使才是必須的,否則無法進行統計檢驗,但大樣本時不需要(中心極限定理)

4.回歸假定的意義:滿足上述假定,通過普通最小二乘法(OLS)得到的回歸估計值將有很好的統計性質

(1)滿足A1和A2,可以保證OLS估計值的無偏性(樣本回歸系數=總體均值);

(2)滿足A1、A2和A3,可以保證BLUE(最優線性無偏估計——效率最高,標准誤最小);

(3)滿足A1、A2、A3和A4,可以保證BUE(最優無偏估計)。

回歸假定如果不滿足,依然可以求解,只是估計值將不具有上述性質。

 二、估計回歸系數

1.方法:

(1)最小二乘法:尋找一組回歸系數使殘差平方和最小

(2)最大似然法:尋找一組回歸系數使樣本結果出現的概率最大

可以證明,這兩種方法得到的系數估計值是等價的。

2.regress命令:regress depvar [indepvars] [if] [in] [weight] [,options]

regress后先寫因變量,再寫自變量

一元回歸:

多元回歸:

標准化回歸系數:

按上述公式手動檢驗結果:

綜上,

非標准化回歸系數:stata默認輸出的結果。解釋為在控制其他變量的情況下,自變量xj變化1個單位,y變化bj個單位。

標准化回歸系數:須使用選項beta。解釋為在控制其他變量的情況下,自變量xj變化1個標准差,y變化betaj個標准差。

標准化回歸系數消除了自變量和因變量測量單位的影響,所以可以比較不同自變量對因變量的相對影響大小

但是,由於不同總體中自變量和因變量的標准差不同,所以無法跨樣本比較betaj。

三、擬合系數——R2

1.確定系數 R2因變量y的殘差平方和中被自變量解釋掉的百分比

R= RSS/TSS

2.R2的意義

斜率大的模型,自變量的影響大;斜率小的模型,自變量影響小。

R2越大,模型對數據的擬合效果越好,但R2並不是越大越好

例:“布勞-鄧肯”地位獲得模型:美國的家庭背景對子女地位獲得的影響——R2越大,說明家庭背景對子女地位獲得的影響越大,說明是一個等級森嚴、難以跨越的社會;反之,家庭背景對子女地位獲得的影響較小,則說明社會較為平等和人才流動。因此,不僅要看R2的統計學意義,還要看所研究的問題的社會學含義

多大的R2可以接受取決於研究的目標:

①如果回歸分析的目標是預測,那么R2越大預測越准確、越好;

②如果回歸分析的目標是獲得某自變量對因變量的真實影響(關鍵在於模型的假定是否滿足),R2是大是小關系並不大。

3.R2的缺陷:隨着自變量的增加,R2也會隨之增加,無論該自變量對因變量是否有影響

改進:在原始R2的基礎上,對自變量數量進行懲罰(Adj R-squared)

——調整后的缺陷:調整后的R2緩解了原始R2的上述缺陷,但它的理論意義並沒有原始的R2那么直接

4.其他擬合指標

一些學者認為,調整后的R2對復雜模型的懲罰不夠大,因此提出了AIC和BIC兩個模型擬合指標

命令:在運行regress后使用estat ic命令可輸出AIC和BIC,這兩個指標與R2相同,用於判斷擬合優度,但AIC和BIC越小,擬合程度越好。

estat ic命令是回歸分析后的一種估算命令

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM