1. 定量資料相關
1.1 . Pearson相關系數
正態分布,定量資料的線性關系
1.2. Spearman相關系數
非正態分布的定量資料或等級資料間的相關性。
1.3. 偏相關
是去掉其它因素的混雜,是兩個變量間的“純正”線性關系。
1.4
方差是自己對自己的關系。
協方差是變量間的的關系。
缺點是協方差隨着原始數值增大而增大。
所以需要對原始數據標准化。
標准化后的原始數據,再計算協方差,此時的協方差就是相關系數。
DATA example6_1; INPUT bmi Le fbg; datalines; 19.19 4.21 5.1O 21.10 4.25 5.10 20.56 4.34 5.10 22.15 4.51 5.70 22.19 4.72 5.30 19.56 4.79 5.60 26.64 4.80 5.10 25.80 1.97 5.60 21.88 5.01 5.70 21.08 5.11 5.10 25.25 5.23 5.90 25.59 5.25 5.00 23.23 5.28 5.80 21.17 5.83 5.90 27.44 5.89 5.08 27.18 6.05 5.70 27.46 6.07 5.90 28.93 6.17 6.20 24.49 6.68 5.90 ; ods html; proc corr data = example6_1; var bmi le fbg; with le; partial le; run;
with le;是和le兩兩比較。
patial le;是去掉le這個混雜作用。
pearson fisher選型用來輸出置信區間。其思路和t檢驗完全相同,只不過標准誤的公式換了。
2. 分類資料的相關
不要求行或列有序,因為就是單純的分類資料。
Phi系數兩個二元變量(dichotomous variable)的關聯性度量。最大值為1,最小值為0.
Pearson列聯相關系數:最大為0.707,難以解釋。
Cramer V系數:用於大於2x2列聯表。是Phi系數的擴展。
coefficient of contingency列連相關系數:主要用於大於2×2列聯表的情況。
上面兩個直接 freq / chisq就可以得出來。
一致性系數:table / agree主要是說兩次測量間的相關性。與之一起打印出來的 Mc Nemar’s test(差異性檢驗),Bowker’s test of symmetry(symmetry檢驗);
一致性是說多次檢測,多次檢驗結果是否一致。
相關性是說某次測量中,兩個變量間有無關系。