目的:為了衡量兩個變量之間的相關性的大小
整體步驟:描述性統計--》正態性檢驗--》(符合)皮爾遜/(不符合)斯皮爾曼--》假設檢驗是否顯著
1.Pearson相關系數
- X、Y變化方向相同,乘積為正,二者正相關
- X、Y變化方向相反,乘積為負,二者負相關
由於協方差的大小和兩個變量的量綱有關,因此不適合作比較。
故引入了皮爾遜相關系數,其可以看成是剔除了兩個變量量綱影響,即將X和Y標准化后的協方差。
相關系數:[-1,1];越接近1或-1,相關度越強;越接近於0,相關度越弱。
衡量兩個變量的相關性的前提條件是這兩個變量是線性相關的
如果不知道是什么關系的情況下,即使算出相關系數,也不能說明它們相關,一定要通過畫出的散點圖觀察。
描述性統計:最小值、最大值、均值、中位數、偏度、峰度、標准差
(以八年級女生體測數據為例)
Excel描述性統計:數據(標題欄)--》數據分析--》描述統計--》勾選匯總統計
SPSS描述性統計:分析--》描述統計--》描述--》將變量移過去,並在選項中加入峰度和偏度
做散點圖觀察是否具有線性關系:
SPSS:圖形--》舊對話框--》散點圖/點圖--》矩陣散點圖
數據正態分布檢驗
- 正態分布JB檢驗(大樣本>30)
步驟:
1. H0:該隨機變量服從正態分布;H1:該隨機變量不服從正態分布
2. 計算該變量的偏度和峰度,得到檢驗值JB*,並計算出其對應的P值
3. 將P值與0.05比較,若P<0.05則可拒絕原假設,否則不能拒絕原假設
- 夏皮洛-威爾克檢驗(小樣本[3,50])
SPSS:分析-》描述統計-》探索-》圖-》含檢驗的正態圖
- Q-Q圖:觀察圖上的點是否近似地在一條直線附近來鑒別樣本數據是否近似於正態分布(要求數據量非常大)(不太推薦)
%% 正態分布檢驗 % 正態分布的偏度和峰度 x = normrnd(2,3,100,1); % 生成100*1的隨機向量,每個元素是均值為2,標准差為3的正態分布 skewness(x) %偏度 kurtosis(x) %峰度 qqplot(x) % 只能檢測一列的 不能檢測整體的 % 檢驗第一列數據是否為正態分布 [h,p] = jbtest(Test(:,1),0.05) [h,p] = jbtest(Test(:,1),0.01) % h=1拒絕原假設 h=0不能拒絕原假設 % 用循環檢驗所有列的數據 n_c = size(Test,2); % number of column 數據的列數 H = zeros(1,6); % 初始化節省時間和消耗 P = zeros(1,6); for i = 1:n_c [h,p] = jbtest(Test(:,i),0.05); H(i)=h; P(i)=p; end disp(H) disp(P) % Q-Q圖 qqplot(Test(:,1))
計算皮爾遜相關系數:
R = corrcoef(Test) % Test為讀入的表格
美化單元格:
格式--》行高(50)+列寬(10)--》選中數值區(統一小數點位數)--》條件格式(色階)--》管理規則--》編輯規則(最小值:數字-1,最大值:數字1,中間值:數字0)
對皮爾遜相關系數進行假設檢驗
假設檢驗:先對總體參數提出一個假設值,然后利用樣本信息判斷這一假設是否成立。
- 原假設(H0):統計者想要拒絕的假設
- 備擇假設(H1):統計者想要接受的假設
原假設被拒絕,若拒絕出錯代表犯了第Ⅰ類的錯誤,而犯第Ⅰ類錯誤的概率已經被規定的顯著性水平所控制
顯著性水平:指當原假設實際上正確時,檢驗統計量落在拒絕域的概率,簡單理解就是犯棄真錯誤的概率
檢驗統計量:據以對原假設和備擇假設做出決策的某個樣本統計量
拒絕域與接受域:
假設檢驗的步驟:
方法一:
方法二(P值法):
- 若P<α值,代表其面積要小於拒絕域的面積,處於拒絕域內,則在顯著性水平α下拒絕原假設
- 若P>=α值,代表其面積大於拒絕域的面積,處於接受域內,則在顯著性水平α下無法拒絕原假設
注意:雙側檢驗P值是單側檢驗的double
顯著性標記
SPSS:分析-》相關-》雙變量-》移到右邊-》皮爾遜相關系數-》雙尾顯著性檢驗-》標記顯著性相關性
也可以使用Matlab計算,將變量值為1的進行三星的顯著性標記,但表下方要有對應的文字說明
%% 計算各列之間的相關系數以及p值 [R,P] = corrcoef(Test) % 在EXCEL表格中給數據右上角標上顯著性符號吧 P < 0.01 % 標記3顆星的位置 (P < 0.05) .* (P > 0.01) % 標記2顆星的位置 (P < 0.1) .* (P > 0.05) % % 標記1顆星的位置