相關性分析


corr

線性或等級相關

折疊全部頁面
 

描述

rho = corr(X) 返回輸入矩陣中每對列之間成對線性相關系數的矩陣X

rho = corr(X,Y) 返回輸入矩陣X和中每對列之間的成對相關系數矩陣Y

[rho,pval] = corr(X,Y) 還返回p值pval矩陣,用於測試無相關假設與非零相關的替代假設。

[rho,pval] = corr(___,Name,Value) 除了使用先前語法中的輸入自變量之外,還使用一個或多個“名稱/值”對自變量指定選項。例如, 'Type','Kendall'指定計算肯德爾的tau相關系數。

 

例子

全部收縮

查找兩個矩陣之間的相關性

找到兩個矩陣之間的相關性,並將其與兩個列向量之間的相關性進行比較。

生成樣本數據。

rng('默認'
X = randn(30,4);
Y = randn(30,4);

介紹矩陣第二X列與矩陣第四列之間的相關性Y

Y(:,4)= Y(:,4)+ X(:,2);

計算X和的列之間的相關性Y

[rho,pval] = corr(X,Y)
rho = 4×4
 -0.1686 -0.0363 0.2278 0.3245 0.3022 0.0332 -0.0866 0.7653 -0.3632 -0.0987 -0.0200 -0.3693 -0.1365 -0.1804 0.0853 0.0279

pval = 4×4
 0.3731 0.8489 0.2260 0.0802 0.1045 0.8619 0.6491 0.0000 0.0485 0.6039 0.9166 0.0446 0.4721 0.3400 0.6539 0.8837

正如預期的那樣,兩列之間的相關系數X和列四個Yrho(2,4),是最高的,並且它代表了兩列之間的高的正相關性。對應的ppval(2,4)對於所示的四位數為零。由於p值小於的顯着性水平0.05,因此表明拒絕了兩列之間不存在相關性的假設。

計算之間的相關性XY使用corrcoef

[r,p] = corrcoef(X,Y)
r = 2×2
 1.0000 -0.0329 -0.0329 1.0000

p = 2×2
 1.0000 0.7213 0.7213 1.0000

的MATLAB®功能corrcoef,不像corr功能,將輸入的矩陣XY成列向量,X(:)並且Y(:),計算它們之間的相關性之前。因此,不再需要在矩陣的第二X列與矩陣的第四列之間引入相關性Y,因為這兩列位於轉換后的列向量的不同部分中。

的非對角元素的值r,其表示之間的相關系數XY,是低的。此值表示X之間幾乎沒有相關性Y同樣,的非對角線元素的值(p表示p值)比的顯着性水平高得多0.05該值表明沒有足夠的證據來拒絕X之間沒有相關性的假設Y

 
 

測試相關性的假設

測試兩個矩陣的列之間的正,負和非零相關性的替代假設。分別比較相關系數的p值。

生成樣本數據。

rng('默認'
X = randn(50,4);
Y = randn(50,4);

在矩陣的第一X列和矩陣的第四列之間引入正相關Y

Y(:,4)= Y(:,4)+ 0.7 * X(:,1);

在的第二列X和的第二列之間引入負相關Y

Y(:,2)= Y(:,2)-2 * X(:,2);

測試相關性大於零的替代假設。

[rho,pval] = corr(X,Y,'Tail''right'
rho = 4×4
 0.0627 -0.1438 -0.0035 0.7060 -0.1197 -0.8600 -0.0440 0.1984 -0.1119 0.2210 -0.3433 0.1070 -0.3526 -0.2224 0.1023 0.0374

pval = 4×4
 0.3327 0.8405 0.5097 0.0000 0.7962 1.0000 0.6192 0.0836 0.7803 0.0615 0.9927 0.2298 0.9940 0.9397 0.2398 0.3982

正如預期的那樣,列之一之間的相關系數X和列四個Yrho(1,4)具有最高正值,表示兩列之間的高的正相關性。對應的p值,pval(1,4)對於所示的四位數為零,低於的顯着性水平0.05這些結果表明拒絕了兩列之間不存在相關性的零假設,並得出了相關性大於零的結論。

測試相關性小於零的替代假設。

[rho,pval] = corr(X,Y,'Tail''left'
rho = 4×4
 0.0627 -0.1438 -0.0035 0.7060 -0.1197 -0.8600 -0.0440 0.1984 -0.1119 0.2210 -0.3433 0.1070 -0.3526 -0.2224 0.1023 0.0374

pval = 4×4
 0.6673 0.1595 0.4903 1.0000 0.2038 0.0000 0.3808 0.9164 0.2197 0.9385 0.0073 0.7702 0.0060 0.0603 0.7602 0.6018

正如預期的那樣,兩列之間的相關系數X和列兩個Yrho(2,2),具有最大絕對值(負數-0.86),代表兩列之間的高的負相關。對應的p值,pval(2,2)對於所示的四位數為零,低於的顯着性水平0.05同樣,這些結果表明對原假設的拒絕,並得出結論,相關性小於零。

測試相關性不為零的替代假設。

[rho,pval] = corr(X,Y)
rho = 4×4
 0.0627 -0.1438 -0.0035 0.7060 -0.1197 -0.8600 -0.0440 0.1984 -0.1119 0.2210 -0.3433 0.1070 -0.3526 -0.2224 0.1023 0.0374

pval = 4×4
 0.6654 0.3190 0.9807 0.0000 0.4075 0.0000 0.7615 0.1673 0.4393 0.1231 0.0147 0.4595 0.0120 0.1206 0.4797 0.7964

p -值,pval(1,4)pval(2,2),均為零所示的四位數字。由於p值低於的顯着性水平0.05,因此相關系數rho(1,4)rho(2,2)明顯不同於零。因此,原假設被拒絕;相關性不為零。

 
 

輸入參數

全部收縮

X— 輸入矩陣
矩陣

輸入矩陣,指定為n × k 矩陣。的行X對應於觀測值,列對應於變量。

例: X = randn(10,5)

數據類型:single |double

Y— 輸入矩陣
矩陣

輸入矩陣,指定為 ñ -by- ķ 2 矩陣時X被指定為一個 ñ -by- ķ 1 矩陣。的行Y對應於觀測值,列對應於變量。

例: Y = randn(20,7)

數據類型:single |double

名稱-值對參數

指定可選的逗號分隔的Name,Value參數Name是參數名稱,Value是對應的值。 Name必須出現在引號內。您可以按任意順序指定幾個名稱和值對參數 Name1,Value1,...,NameN,ValueN

示例:corr(X,Y,'Type','Kendall','Rows','complete')僅使用不包含缺失值的行來返回Kendall的tau相關系數。

'Type'— 相關類型
'Pearson'(默認)| 'Kendall'|'Spearman'

相關類型,指定為以逗號分隔的一對,由'Type'和之一組成

描述
'Pearson' 皮爾遜線性相關系數
'Kendall' 肯德爾的Tau系數
'Spearman' 斯皮爾曼的羅

corr使用學生的t 分布來計算相關變換,從而計算Pearson相關p值。正態分布來自正態分布這種關聯是精確的使用精確的置換分布(對於小樣本量)或大樣本近似值,計算Kendall tau和Spearman rho 的 p值。XYcorr

例: 'Type','Spearman'

'Rows'— 用於計算的行
'all'(默認)| 'complete'|'pairwise'

在計算中使用的行,指定為以逗號分隔的一對,由'Rows'和之一組成

描述
'all' 使用輸入的所有行,而不管缺少的值(NaNs)。
'complete' 僅使用輸入的行,且不缺少任何值。
'pairwise' rho(i,j)使用列i或中 沒有缺失值的行進行計算j

'complete'值不同,該 'pairwise'值始終會產生一個正定或半正定rho此外,該 'complete'值通常使用較少的觀察值來估計rho輸入(XY)的行何時包含缺失值。

例: 'Rows','pairwise'

'Tail'— 替代假設
'both'(默認)| 'right'|'left'

替代假設,指定為以逗號分隔的一對,由'Tail'表中的值和組成'Tail'指定用於計算p值以測試無相關假設的替代假設

描述
'both' 測試相關性不是的替代假設0
'right' 測試相關性大於 0
'left' 測試相關性小於的替代假設0

corr計算p為通過加倍兩個單尾的更顯著的雙尾檢驗-值p -值。

例: 'Tail','left'

輸出參數

全部收縮

rho—成對線性相關系數
矩陣

成對線性相關系數,以矩陣形式返回。

  • 如果僅輸入矩陣X, rho則是對稱的 k × k矩陣,其中 k是中的列數 X該條目rho(a,b)是線性列之間的相關系數的成對 一個和列b在 X

  • 如果輸入矩陣X和 Yrho是 ķ 1 -by- ķ 2 矩陣,其中ķ 1和 ķ 2是列的數目XY分別。該條目rho(a,b)是第a in X列和第b in 之間的成對線性相關系數Y

pvalp -值
矩陣

p值,以矩陣形式返回。的每個元素 pval都是的對應元素prho

如果pval(a,b)小於(小於 0.05),則相關性 rho(a,b)與零顯着不同。

更多關於

全部收縮

皮爾遜線性相關系數

皮爾森線性相關系數是最常用的線性相關系數。對於矩陣X的a列 矩陣Y的b,均值,皮爾遜線性相關系數 rho(a,b)定義為:X=Ñ=1X/Ñÿb=ÑĴ=1XbĴ/Ñ

ř ħ Ô  = Ñ=1X - 〜XÝ - 〜ÿb{Ñ=1X - 〜X2ÑĴ=1ÝbĴ- 〜Ÿb2}2

 

其中n是每列的長度。

相關系數的值范圍可以從–1到 +1–1表示完全負相關,而值+1表示完全正相關。0表示各列之間沒有相關性。

肯德爾的Tau系數

Kendall的tau是基於計數的(數I,J)對,用於我置於<J 是一致的,也就是說,對於其中具有相同的符號。肯德爾tau方程包含對歸一化常數中的聯系的調整,通常稱為tau-b。Xi -XjYi -Yj

對於矩陣 X中的a矩陣Y中的b,Kendall的tau系數定義為:

τ K− 

 

其中,ķ Ñ 1=1個ñĴ=+1ξ*XX一個ĴÿÿĴ

ξ*XX一個ĴÿÿĴ =1個0− 1如果如果如果Xi - XjYi - YjXi - XjYi - YjXi - XjYi - Yj000

 

相關系數的值范圍可以從–1到 +1–1表示一個列的排名與另一列相反,而值+1 表示兩個列的排名相同。0 表示各列之間沒有關系。

斯皮爾曼的羅

Spearman的rho等於應用於a和 b列的排名的Pearson線性相關系數

如果每一列中的所有等級都不同,則該方程式簡化為:

ř ħ Ô  = d2n2 − 

 

其中d是兩列的等級之間的差,n是每列的長度。

提示

之間的差corr(X,Y)的MATLAB和®功能corrcoef(X,Y)是, corrcoef(X,Y)返回一個兩個向量相關系數矩陣XY如果 XY不是列向量, corrcoef(X,Y)則將它們轉換為列向量。

參考文獻

[1] Gibbons,JD 非參數統計推斷。第二版。德克(1985年)。

[2] Hollander,M.和DA Wolfe。非參數統計方法威利(1973)。

[3] Kendall,MG 等級相關方法格里芬(Griffin),1970年。

[4] Best,DJ和DE Roberts。“算法AS 89:Spearman的rho的上尾概率。” 應用統計,24:377-379。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM