多變量相關性分析(一個因變量與多個自變量)

本文轉載自查看原文 2020-05-12 11:22 15511 統計分析

轉自：https://zhuanlan.zhihu.com/p/37605060

一、前言：

繼上一篇文章，繼續探討相關性分析，這次不再是兩個變量，而是3個或者以上的變量之間的相關關系分析。

沒讀過上篇文章請先仔細閱讀再過來，因為多變量本質上是基於雙變量的

二、偏相關或復相關

簡單相關：研究兩變量之間的關系

偏相關或復相關：研究三個或者以上變量與的關系

在這里仍然是選擇最簡單的線性相關來解釋：

三、意義與用途：

有些情況下，我們只想了解兩個變量之間是否有線性相關關系，並不想擬合建立它們的回歸模型，也不需要區分自變量和因變量，這時可用相關性分析。

四、分析方法：

1、樣本相關陣

設 $x_1,x_2,···,x_n$ 來自正態總體 $N_p(\mu,\sigma^2)$ 容量為 $n$ 的樣本，其中每個樣本 $x$ 有 $p$ 個觀測

分別計算兩兩樣本之間的簡單相關系數 $r_{ij}$ ，它們構成的矩陣就是：

$\begin{bmatrix} r_{11} & r_{12} &... & r_{1p} \\ r_{21} & r_{22} & ... &r_{2p} \\ ...&...&...&... \\r_{p1}&r_{p2}&...&r_{pp} \end{bmatrix}\quad$

由於每個變量跟自己的相關系數就是 $1$ ，即：

$\begin{bmatrix} 1 & r_{12} &... & r_{1p} \\ r_{21} & 1 & ... &r_{2p} \\ ...&...&...&... \\r_{p1}&r_{p2}&...&1 \end{bmatrix}\quad=(r_{ij})_{p\times p}$

其中， $(r_{ij})_{p\times p}$ 就是兩個變量的簡單相關系數。

$r_{ij}=\frac{\sum_{}^{}{(x-\bar{x})(y-\bar{y})}}{\sqrt{\sum{(x-\bar{x})^2\sum{(y-\bar{y})^2}}}}$

例子：

> X <- read.table("clipboard", header = T)
> cor(X)  # 相關系數矩陣
           y        x1        x2        x3        x4
y  1.0000000 0.9871498 0.9994718 0.9912053 0.6956619
x1 0.9871498 1.0000000 0.9907018 0.9867664 0.7818066
x2 0.9994718 0.9907018 1.0000000 0.9917094 0.7154297
x3 0.9912053 0.9867664 0.9917094 1.0000000 0.7073820
x4 0.6956619 0.7818066 0.7154297 0.7073820 1.0000000

再看看矩陣散點圖：

> pairs(X, ...)  # 多元數據散點圖

相關系數檢驗：

> install.package('psych')  # 先安裝一個'psych'的包
> library(psych)
> corr.test(X)
Call:corr.test(x = yX)
 Correlation matrix
 y x1 x2 x3 x4
 y 1.00 0.99 1.00 0.99 0.70
 x1 0.99 1.00 0.99 0.99 0.78
 x2 1.00 0.99 1.00 0.99 0.72
 x3 0.99 0.99 0.99 1.00 0.71
 x4 0.70 0.78 0.72 0.71 1.00
 Sample Size
 [1] 31
 Probability values (Entries above the diagonal are adjusted for multiple tests.)
 y x1 x2 x3 x4
 y 0 0 0 0 0
 x1 0 0 0 0 0
 x2 0 0 0 0 0
 x3 0 0 0 0 0
 x4 0 0 0 0 0
To see confidence intervals of the correlations, print with the short=FALSE option

上面矩陣是相關系數的 $t$ 值矩陣，下面矩陣是 $P$ 值矩陣

可以看出 $y$ 與 $x_1, x_2, x_3, x_4$ 的關系都十分密切

相關系數 $r>0.8$ 且置信度 $P<0.001$

2、復相關分析

實際分析中，一個變量( $y$ )往往要受到多種變量( $x_1 ... x_4$ )的綜合影響，

所謂復相關，就是研究多個變量同時與某個變量的相關關系，

度量復相關程度的指標是復相關系數

多個變量同時與某個變量的相關關系不能直接測算，只能通過間接測算

復相關系數的計算：

設因變量 $y$ ，自變量為 $x_1,x_2,···,x_p$ ，構造一個線性模型為：

$y=b_0+b_1x_1,+...+b_px_p+\varepsilon$

$\hat{y} = b_0+b_1x_1+···+b_px_p$

對 $y$ 與 $x_1,x_2,···,x_p$ 作相關分析，就是對 $y$ 與 $\hat{y}$ 做簡單相關分析

記：

$r_{y·x_1···x_p}$ 為 $y$ 與 $x_1,x_2,···,x_p$ 的復相關系數，
$r_{y·\hat{y}}$ 為 $y$ 與 $\hat{y}$ 的簡單相關系數

$r_{y·x_1···x_p}$ 的計算公式：

$R=corr(y,x_1,···,x_p)=corr(y,\hat{y})=\frac{cov(y,\hat{y})}{\sqrt{var(y)var(\hat{y})}}$

復相關系數常用於多元線性回歸分析中，我們希望知道因變量與一組自變量之間的相關程度，即復相關，復相關系數反映了一個變量與另一組變量的密切程度。

假設檢驗：

與多元回歸的方差分析一樣，所以我留在下篇文章闡述回歸分析與方差分析的時候會繼續詳細說明

綜上： $R=\sqrt{\frac{\sum_{}^{}{(\hat{y_i}-\bar{y})^2}}{\sum(y_i-\bar{y})^2}}=\frac{SSR}{SST}$

至於 $SSR$ 和 $SST$ 還有 $SSE$ 是什么？

就由下篇文章闡述回歸分析的時候會詳細說明。

TzeSing Kong：線性回歸——描述變量間預測關系最簡單的回歸模型 zhuanlan.zhihu.com

3、決定系數 $R^2$ （coefficient of determination）

在復相關系數中，根號里面的比值 $\frac{\sum_{}^{}{(\hat{y_i}-\bar{y})^2}}{\sum(y_i-\bar{y})^2}$ ，

其實說明了回歸平方和與總離差平方和的比值，反應了回歸貢獻的百分比

把復相關系數兩邊平方一下就能得到決定系數

$R^2=\frac{\sum_{}^{}{(\hat{y_i}-\bar{y})^2}}{\sum(y_i-\bar{y})^2}=1-\frac{SSE}{SST}=1-\frac{\sum_{}^{}{(\hat{y_i}-y_i)^2}}{\sum(y_i-\bar{y})^2}$

決定系數用於評價多元回歸方程、變量選擇、曲線回歸方程擬合的好壞程度中，常常用到。

【注意】

$R^2$ 是相關性的度量，並不是准確性的度量！！！
$R^2$ 依賴於 $y$ 的波動程度（樣本方差），這會使得我們看待模型的好壞有着巨大影響，例如，假設測試集 $y$ 的方差是 $4.2$ ，如果一個模型的 $RMSE=1$ ， $R^2$ 大致為 $76\%$ ，但是另一個測試集 $y$ 的方差是 $3$ (分母小了， $R^2$ 小了)， $R^2$ 則變為 $67\%$ 。變成了模型好壞取決於測試集的波動程度，所以這個十分不靠譜
不明白上面的話，可以再看一個例子，如果我們建立了一個模型預測廣州房價，如果測試集中廣州房屋售價的波動范圍較大——方差較大（40萬-幾千萬），因為方差大，所以很可能導致 $R^2$ 也比較大（假設 $80\%$ ），但 $RMSE$ 可能十萬，這對於廣州房價預測來說是一個很糟糕的預測范圍。

具體用法，留在回歸分析中詳細闡述。

TzeSing Kong：線性回歸——描述變量間預測關系最簡單的回歸模型 zhuanlan.zhihu.com

在線性回歸中的 3.4 決定系數

# 先建立多元線性回歸模型

> fm = lm(y~x1+x2+x3+x4,data = X)
計算多元線性回歸模型決定系數
> R2 = summary(fm)$r.sq
 > R2
 [1] 0.9997162
計算復相關系數
> R = sqrt(R2)
 > R
 [1] 0.9998581

【補】

什么是RMSE？

RMSE是回歸問題的性能指標，衡量的是預測值 $h(x^{(i)})$ 與真實值 $y^{(i)}$ 間的差距