生物統計學-----相關與回歸
描述和預測統計之后,相關與回歸預測變量之間的關系。
相關關系是變量間關系不能用函數精確表達,即不一一對應而是點分布在直線周圍。
評價指標是相關系數,有總體相關系數和樣本相關系數,協方差的正負性與相關系數的正負性同步,當相關系數為0時雖然無線性相關,但是可能存在其他非線性關系:
相關系數具有對稱性,改變坐標系和尺度不改變r大小(但協方差不滿足該性質,只能表明某兩個因素有線性相關性,但不一定因果關系。通常,還會對相關系數做假設檢驗。
回歸方程進行預測是從一組樣本出發,在篩選得到教較有影響力的因素后建立方程,利用回歸方程由自變量得到因變量的結果。與相關區別在於線性相關中x、y是平等的且都是隨機變量,而在回歸中要求x是自變量且是否是隨機變量都無所謂,y是被解釋的必須是隨機變量。線性相關是用於描述的,而回歸分析是用於描述和預測的。
回歸分析類型可以是一元或多元的。
回歸模型中,X是自變量。y是因變量。是誤差項,隨機因素,是用來不能用線性關系解釋的部分,滿足均值為零方差相同的正態分布,是獨立的。
但是每個x得到的信息都不相關獨立,輸入x得到的是所有可能y的均值。
求兩個系數使用拉格朗日乘法(最小二乘法),即偏導數為零的點,得到系數。
離差平方和的分解,即SST=SSR+SSE。SST是觀察值與均值的偏差,即總變異,SSR是x能解釋y的平方和,SSE是除x以外其他因素對y影響的平方和,可以使用SSR/SST,即判定系數來判定回歸方程的擬合程度,該值必然在(0,1)。
回歸方程的檢驗:判定回歸方程中線性關系是否顯著使用F分布(SSR、SSE)。
回歸系數的檢驗可使用殘差分析檢驗假設是否成立。