相關系數可用來衡量兩個變量之間的相關性大小,根據數據滿足的不同條件,選擇不同的相關系數進行計算分析。
兩種常用的相關系數:皮爾遜person和斯皮爾曼spearman。
總體和樣本:
皮爾遜相關系數:(要求數據要都是符合正態分布的數據,而且數據需線性相關)
必須先確認兩個變量時線性相關的(畫樣本散點圖先觀察是否線性),然后此系數才能告訴他們相關程度如何。如果計算的相關系數為0,只能說明非線性相關。
不能說協方差大的兩個變量比協方差小的兩個變量更相關,因為沒有消除變量的量綱的影響。皮爾遜相關系數就是協方差消除量綱后的結果。
樣本皮爾遜相關系數同總體皮爾遜相關系數:
由於皮爾遜相關系數只是衡量已知線性相關的兩個變量的相關程度,其他情況不適用:
對相關性大小的解釋:
根據具體事情具體分析,沒有標准大小的閾值規定。比起相關系數大小,我們更關注其顯著性。(假設檢驗)
對皮爾遜相關系數進行假設檢驗:
如:求出相關系數r=0.3,問是否和0(非線性相關)有顯著差異?
經假設檢驗求出03與0有顯著差異的,就可說明變量的相關性是顯著的;若求出0.3和0沒有顯著差異,可說明變量並不相關,相關系數不顯著。
步驟:
對皮爾遜相關系數構造統計變量,知道統計量的分布,就可以畫出統計變量的概率密度函數。將計算出的皮爾曼相關系數帶入統計變量,得到一個檢驗值,根據置信水平畫出統計變量接受域和拒絕域,看檢驗值是否落在接受域。
除了根據表格找接受域拒絕域的臨界值之外,更好用的方法:
對皮爾遜相關系數假設檢驗的條件:
檢驗數據是否是正態分布:
①JB檢驗:
②夏皮洛-威爾克檢驗
③QQ圖(要求數據量要非常大)
斯皮爾曼相關系數:
小樣本情況:
大樣本情況:
總結: