指標的意義:
- R方:擬合出來的線能解釋多少實際信息量
- F值:驗證模型整體顯著性水平
一、R2
也稱 擬合優度、決定系數:反應回歸模型擬合數據的優良程度
先說結論:R2 越接近 1 ,擬合效果越好
- 回歸:所有實際數值點向均值回歸,認為均值含有所有點最大的信息量
- 實際信息:點的實際值 減去 均值 認為是 這個點的實際信息(藍色條),可以拆分成下面兩部分
- 誤差信息:實際值減線上的點的值,這是未擬合出來的信息(黃色條)
- 擬合出的信息:擬合出來的線上的點 減 均值 (紅色條)
對於一個模型來說:誤差信息越短,擬合出的信息越長,擬合效果越好。
擬合優度涉及的三個指標
1. SST:總體平方和,它的大小描述了數據集中的數的分散程度
2. SSE:殘差平方和
3. SSR:回歸平方和,擬合數據的分散情況
二、調整后的 R2
在樣本容量一定的情況下,增加解釋變量必定使得自由度減少
目的:在模型的復雜程度和衡量模型的優良程度上取一個平衡
讓模型趨於簡單(模型復雜之后 會使預測受到一定限制:過擬合)
所以注意!多元統計要用調整后的R2來衡量
具體操作:將殘差平方和與總離差平方和分別除以各自的自由度,以剔除變量個數對擬合優度的影響
三、F 值
先說結論:F 值越大,模型整體顯著性水平越高
意義:所估計回歸的總顯著性的一個度量,也是調整后的R方的一個顯著性檢驗
即:驗證模型整體顯著性水平的指標:F值越大越拒絕 0 假設
檢驗模型中的參數 β 們是否顯著不為 0
由於 SSR 是解釋變量 X 的聯合體對被解釋變量 Y 的線性作用的結果,考慮SSR/SSE的比值:
如果這個比值較大,可認為總體存在線性關系;
反之總體上可能不存在線性關系。
F值與調整后的R方呈同向變化
當調整后的R方為 0 時,F = 0;
調整后的R方越大,F值越大;
當調整后的R方 為1 時,F值 為正無窮。