相關分析是一種簡單易行的測量定量數據之間的關系情況的分析方法。可以分析包括變量間的關系情況以及關系強弱程度等。
如:身高和體重的相關性;降水量與河流水位的相關性;工作壓力與心理健康的相關性等。
相關性種類
客觀事物之間的相關性,大致可歸納為兩大類:
一、函數關系
函數關系是兩個變量的取值存在一個函數來唯一描述。
比如銷售額與銷售量之間的關系,可用函數y=px(y表示銷售額,p表示單價,x表示銷售量)來表示。所以,銷售量和銷售額存在函數關系。
這一類關系,不是我們關注的重點。
二、統計關系
統計關系,指兩事物之間的非一一對應關系,即當變量x取一定值時,另一個變量y雖然不唯一確定,但按某種規律在一定的范圍內發生變化。
比如:子女身高與父母身高、廣告費用與銷售額的關系,是無法用一個函數關系唯一確定其取值的,但這些變量之間確實存在一定的關系。大多數情況下,父母身高越高,子女的身高也就越高;廣告費用花得越多,其銷售額也相對越多。
這種關系,就叫做統計關系。
按照相關表現形式,又可分為不同的相關類型,詳見下圖:
相關性描述方式
描述兩個變量是否有相關性,常見的方式有3種:
1.相關圖(典型的如散點圖和列聯表等等)
2.相關系數
3.統計顯著性
用可視化的方式來呈現各種相關性,常用散點圖,如下圖:
相關性分析步驟
Step1:相關分析前,首先通過散點圖了解變量間大致的關系情況。
如果變量之間不存在相互關系,那么在散點圖上就會表現為隨機分布的離散的點,如果存在某種相關性,那么大部分的數據點就會相對密集並以某種趨勢呈現。
如上圖,展現了平時成績與能力評分之間的關系情況:X增大時,Y會明顯的增大,說明X和Y之間有着正向相關關系。
Step2:計算相關系數
散點圖能夠展現變量之間的關系情況,但不精確。還需要通過相關分析得到相關系數,以數值的方式精准反映相關程度。
相關系數常見有三類,分別是:
Pearson相關系數、
Spearman等級相關系數 Kendall相關系數。
最常使用的是Pearson相關系數;當數據不滿足正態性時,則使用Spearman相關系數,Kendall相關系數用於判斷數據一致性,比如裁判打分。
相關性分析案例
-
數據集說明
某公司員工的基本情況,數據集含3列,分別為:性別、年齡、工資,
分析主題:希望了解員工年齡和工資水平之間的關系(企業人事部門的讀者可關心一下)。
-
相關性可視化
如圖,用散點圖先觀察2個變的關系。
散點圖顯示2個變量似乎存在一定的相關性,為了得到更准確的結論,接下來要行為更准確的相關分析驗證,讓分析結果更清晰。
-
相關系數計算-SPSS分析過程
1.菜單操作:分析——相關——雙變量
2.結果解讀
原假設:工資與年齡間不存在相關關系
計算結果sig=0.002,即原假設不成立。現實意義為年齡與工資水平有着極顯著的相關關系,也就是說隨着年齡的增加,工資會逐漸下降。