1. Pearson相關
http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient
Pearson相關用於雙變量正態分布的資料,其相關系數稱為積矩相關系數(coefficient of product-moment correlation)。進行相關分析時,我們一般會同時對兩變量繪制散點圖,以更直觀地考察兩變量之間的相互變化關系。
例7-1 某醫生為了探討缺碘地區母嬰TSH水平的關系,應用免疫放射分析測定了160名孕婦(15-17周)及分娩時臍帶血TSH水平(mU/L),現隨機抽取10對數據,見表7.6,試對母血TSH水平與新生兒臍帶血TSH水平進行相關分析。
表7.6 10名孕婦及其分娩時臍帶血TSH水平
母血TSH |
1.21 |
1.30 |
1.39 |
1.42 |
1.47 |
1.56 |
1.68 |
1.72 |
1.98 |
2.10 |
臍帶血TSH |
3.90 |
4.50 |
4.20 |
4.83 |
4.16 |
4.93 |
4.32 |
4.99 |
4.70 |
5.20 |
對資料進行相關分析之前,我們可以先對其繪制散點圖,以考察兩變量的真實變化關系,我們可以應用第二章中介紹過的plot過程或gplot過程來執行繪制散點圖的功能。散點圖完成后再計算變量之間的相關系數,對相關系數進行假設檢驗,以量化形式表示變量間的相關關系。
為方便起見,此處我們將繪制散點圖和相關分析一次完成。此處將母血TSH水平用x1來表示,臍帶血TSH水平用x2來表示,編制SAS程序如下。
data temp; |
input x1 x2@@; |
datalines; |
1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 |
1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 |
; |
proc gplot; |
plot x2*x1='*'; |
run; |
proc corr; |
var x1 x2; |
run; quit; |
進行Pearson相關分析是Corr過程的默認方式,故無需再在proc corr語句后指定pearson選項。
將以上程序提交執行,結果如下。
(1)兩變量散點圖,見圖7.1。
圖7.1 變量x1與x2之散點圖
(2)兩變量相關分析結果
The SAS System 19:34 Monday, December 23, 2002 4
The CORR Procedure
2 Variables: x1 x2
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
x1 10 1.58300 0.28856 15.83000 1.21000 2.10000
x2 10 4.57300 0.42277 45.73000 3.90000 5.20000
Pearson Correlation Coefficients, N = 10
Prob > |r| under H0: Rho=0
x1 x2
x1 1.00000 0.68073
0.0303
x2 0.68073 1.00000
0.0303
結果中首先給出兩變量的描述性統計量,然后給出變量的相關系數矩陣(var語句所列變量中任兩者之間的相關系數),對於檢驗假設為H0:的假設檢驗結果(僅給出P值)列在相應相關系數的下面。
本例中,散點圖表現出明顯的橢圓形,說明兩變量間存在一定的直線相關,相關分析的結果也驗證了這一點,相關系數不為零(P=0.0303<0.05)。
另外,用with語句可以對特定的變量對進行相關分析,此例可將corr過程中間的語句改為:
var x1;
with x2;
因此例僅有兩個變量,原程序顯得更為簡便,但在變量較多時,with語句可發揮很好的作用。
2. Spearman秩相關
http://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient
當兩變量不符合雙變量正態分布的假設時,需用Spearman秩相關來描述變量間的相互變化關系。此時,散點圖上散點的分布形態不能完全描述兩變量間的相關關系,故此時一般不需再繪制散點圖。
例7-2 用60Co對狗造成急性放射病,對照射后5天時的健康狀況進行綜合評分,並記錄其存活天數,見表7.7。試作等級相關分析。
表7.7 狗急性放射病綜合評分及其存活天數
綜合評分 |
79 |
80 |
91 |
90 |
70 |
87 |
92 |
存活天數 |
45 |
30 |
16 |
24 |
28 |
25 |
14 |
將綜合評分和存活天數分別用變量x和y表示,編制程序如下。
data temp; |
input x y@@; |
datalines; |
79 45 80 30 91 16 90 24 |
70 28 87 25 92 14 |
; |
proc corr spearman nosimple; |
var x y; |
run; quit; |
Proc corr語句的spearman選項即要求用Spearman秩相關來進行數據分析,nosimple選項則用來禁止對變量描述性統計量的輸出。
提交上述程序,結果如下。
The SAS System 19:34 Monday, December 23, 2002 6
The CORR Procedure
2 Variables: x y
Spearman Correlation Coefficients, N = 7
Prob > |r| under H0: Rho=0
x y
x 1.00000 -0.89286
0.0068
y -0.89286 1.00000
0.0068
SAS仍舊給出相關系數矩陣,其內容和Pearson相關分析的完全一樣,只不過相關系數的計算方法不同而已。
3. 對於kendall tau correlation coefficient,可參考
http://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient
對於上述三個相關性分析,有篇簡單介紹計算的:http://www.cnblogs.com/kemaswill/archive/2012/11/01/2749842.html
這里所指的單變量,是針對自變量個數而言的,在不特別說明的情況下,應變量均為單個變量。單變量線性回歸為回歸分析中最為簡單的情形,也是其它類型回歸分析的基礎。
例7-3 針對例7-1資料,分娩時臍帶血TSH水平(mU/L)受母血TSH水平的影響,試進行回歸分析。
此例資料中,臍帶血TSH水平隨母血TSH水平的變化而變化,前者應被看作為應變量,用y表示,后者為自變量,用x表示。編制如下程序。
data temp; |
input x y@@; |
datalines; |
1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 |
1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 |
; |
proc reg; |
model y=x; |
run; quit; |
雖然reg過程選項、語句復雜,但我們經常用到的一般比較簡單,此例即為最簡單的情形,達到了reg過程程序代碼的最低限度。提交上述程序,結果如下。
The SAS System 10:35 Wednesday, December 25, 2002 1
The REG Procedure
Model: MODEL1
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 0.74542 0.74542 6.91 0.0303
Error 8 0.86319 0.10790
Corrected Total 9 1.60861
Root MSE 0.32848 R-Square 0.4634
Dependent Mean 4.57300 Adj R-Sq 0.3963
Coeff Var 7.18304
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 2.99422 0.60958 4.91 0.0012
x 1 0.99733 0.37945 2.63 0.0303
結果第一部分為模型的方差分析結果。第二部分給出模型的有關重要統計量,如R2(R-Square)、校正R2(Adj R-Sq)等指標。第三部分為模型的參數估計情況,分別給出截距項和自變量回歸系數等的估計值以及對應的假設檢驗結果。
兩個連續變量間呈線性相關時,使用Pearson積差相關系數,不滿足積差相關分析的適用條件時,使用Spearman秩相關系數來描述.
Spearman相關系數又稱秩相關系數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用范圍要廣些。對於服從Pearson相關系數的數據亦可計算Spearman相關系數,但統計效能要低一些。Spearman相關系數的計算公式可以完全套用Spearman相關系數計算公式,但公式中的x和y用相應的秩次代替即可。
Kendall's tau-b等級相關系數:用於反映分類變量相關性的指標,適用於兩個分類變量均為有序分類的情況。對相關的有序變量進行非參數相關檢驗; 取值范圍在-1-1之間,此檢驗適合於正方形表格;