一、回歸:回歸是研究變量間相互關系的方法
1、條件分布:因變量在自變量取不同值時的分布
如果因變量在自變量取不同值時的條件分布都相同,那么自變量對因變量沒有影響,否則就是有影響。
比較因變量在自變量取不同值時的條件分布過於復雜,一個簡化方法就是
比較自變量取不同值時因變量條件分布的均值——回歸
E(y|x) = f(x)
2.線性回歸:用線性函數來描述自變量與因變量條件均值的一種回歸方法。
3.四條基本假定:最重要的是前2條假定,一旦不滿足會導致估計結果有偏。——一定要保證函數設定正確,確保不要遺漏關鍵變量
(1)線性假定:y的條件均值為x的線性函數:E(y|x) = b0+b1x1+b2x2+...+bkxk
非線性關系可以通過非線性變換轉變成線性
(2)正交假定:
(3)獨立同分布假定:不滿足會導致估計結果沒有效率,但仍是無偏的。可以使用其他估計方法(如:OLS)獲得有效估計值,或使用穩健標准誤獲得正確的統計檢驗結果。
①同方差假定:
②無自相關:
常見的存在自相關的情形:
A.時間序列:同一個觀測對象在不同時點得到的結果。
B.整群抽樣
(4)正態分布假定:在小樣本使才是必須的,否則無法進行統計檢驗,但大樣本時不需要(中心極限定理)
4.回歸假定的意義:滿足上述假定,通過普通最小二乘法(OLS)得到的回歸估計值將有很好的統計性質
(1)滿足A1和A2,可以保證OLS估計值的無偏性(樣本回歸系數=總體均值);
(2)滿足A1、A2和A3,可以保證BLUE(最優線性無偏估計——效率最高,標准誤最小);
(3)滿足A1、A2、A3和A4,可以保證BUE(最優無偏估計)。
回歸假定如果不滿足,依然可以求解,只是估計值將不具有上述性質。
二、估計回歸系數
1.方法:
(1)最小二乘法:尋找一組回歸系數使殘差平方和最小
(2)最大似然法:尋找一組回歸系數使樣本結果出現的概率最大
可以證明,這兩種方法得到的系數估計值是等價的。
2.regress命令:regress depvar [indepvars] [if] [in] [weight] [,options]
regress后先寫因變量,再寫自變量
一元回歸:
多元回歸:
標准化回歸系數:
按上述公式手動檢驗結果:
綜上,
非標准化回歸系數:stata默認輸出的結果。解釋為在控制其他變量的情況下,自變量xj變化1個單位,y變化bj個單位。
標准化回歸系數:須使用選項beta。解釋為在控制其他變量的情況下,自變量xj變化1個標准差,y變化betaj個標准差。
標准化回歸系數消除了自變量和因變量測量單位的影響,所以可以比較不同自變量對因變量的相對影響大小
但是,由於不同總體中自變量和因變量的標准差不同,所以無法跨樣本比較betaj。
三、擬合系數——R2
1.確定系數 R2:因變量y的殘差平方和中被自變量解釋掉的百分比
R2 = RSS/TSS
2.R2的意義
斜率大的模型,自變量的影響大;斜率小的模型,自變量影響小。
R2越大,模型對數據的擬合效果越好,但R2並不是越大越好
例:“布勞-鄧肯”地位獲得模型:美國的家庭背景對子女地位獲得的影響——R2越大,說明家庭背景對子女地位獲得的影響越大,說明是一個等級森嚴、難以跨越的社會;反之,家庭背景對子女地位獲得的影響較小,則說明社會較為平等和人才流動。因此,不僅要看R2的統計學意義,還要看所研究的問題的社會學含義
多大的R2可以接受取決於研究的目標:
①如果回歸分析的目標是預測,那么R2越大預測越准確、越好;
②如果回歸分析的目標是獲得某自變量對因變量的真實影響(關鍵在於模型的假定是否滿足),R2是大是小關系並不大。
3.R2的缺陷:隨着自變量的增加,R2也會隨之增加,無論該自變量對因變量是否有影響
改進:在原始R2的基礎上,對自變量數量進行懲罰(Adj R-squared)
——調整后的缺陷:調整后的R2緩解了原始R2的上述缺陷,但它的理論意義並沒有原始的R2那么直接
4.其他擬合指標
一些學者認為,調整后的R2對復雜模型的懲罰不夠大,因此提出了AIC和BIC兩個模型擬合指標
命令:在運行regress后使用estat ic命令可輸出AIC和BIC,這兩個指標與R2相同,用於判斷擬合優度,但AIC和BIC越小,擬合程度越好。
estat ic命令是回歸分析后的一種估算命令