目的:为了衡量两个变量之间的相关性的大小
整体步骤:描述性统计--》正态性检验--》(符合)皮尔逊/(不符合)斯皮尔曼--》假设检验是否显著
1.Pearson相关系数
- X、Y变化方向相同,乘积为正,二者正相关
- X、Y变化方向相反,乘积为负,二者负相关
由于协方差的大小和两个变量的量纲有关,因此不适合作比较。
故引入了皮尔逊相关系数,其可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。
相关系数:[-1,1];越接近1或-1,相关度越强;越接近于0,相关度越弱。
衡量两个变量的相关性的前提条件是这两个变量是线性相关的
如果不知道是什么关系的情况下,即使算出相关系数,也不能说明它们相关,一定要通过画出的散点图观察。
描述性统计:最小值、最大值、均值、中位数、偏度、峰度、标准差
(以八年级女生体测数据为例)
Excel描述性统计:数据(标题栏)--》数据分析--》描述统计--》勾选汇总统计
SPSS描述性统计:分析--》描述统计--》描述--》将变量移过去,并在选项中加入峰度和偏度
做散点图观察是否具有线性关系:
SPSS:图形--》旧对话框--》散点图/点图--》矩阵散点图
数据正态分布检验
- 正态分布JB检验(大样本>30)
步骤:
1. H0:该随机变量服从正态分布;H1:该随机变量不服从正态分布
2. 计算该变量的偏度和峰度,得到检验值JB*,并计算出其对应的P值
3. 将P值与0.05比较,若P<0.05则可拒绝原假设,否则不能拒绝原假设
- 夏皮洛-威尔克检验(小样本[3,50])
SPSS:分析-》描述统计-》探索-》图-》含检验的正态图
- Q-Q图:观察图上的点是否近似地在一条直线附近来鉴别样本数据是否近似于正态分布(要求数据量非常大)(不太推荐)
%% 正态分布检验 % 正态分布的偏度和峰度 x = normrnd(2,3,100,1); % 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布 skewness(x) %偏度 kurtosis(x) %峰度 qqplot(x) % 只能检测一列的 不能检测整体的 % 检验第一列数据是否为正态分布 [h,p] = jbtest(Test(:,1),0.05) [h,p] = jbtest(Test(:,1),0.01) % h=1拒绝原假设 h=0不能拒绝原假设 % 用循环检验所有列的数据 n_c = size(Test,2); % number of column 数据的列数 H = zeros(1,6); % 初始化节省时间和消耗 P = zeros(1,6); for i = 1:n_c [h,p] = jbtest(Test(:,i),0.05); H(i)=h; P(i)=p; end disp(H) disp(P) % Q-Q图 qqplot(Test(:,1))
计算皮尔逊相关系数:
R = corrcoef(Test) % Test为读入的表格
美化单元格:
格式--》行高(50)+列宽(10)--》选中数值区(统一小数点位数)--》条件格式(色阶)--》管理规则--》编辑规则(最小值:数字-1,最大值:数字1,中间值:数字0)
对皮尔逊相关系数进行假设检验
假设检验:先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。
- 原假设(H0):统计者想要拒绝的假设
- 备择假设(H1):统计者想要接受的假设
原假设被拒绝,若拒绝出错代表犯了第Ⅰ类的错误,而犯第Ⅰ类错误的概率已经被规定的显著性水平所控制
显著性水平:指当原假设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯弃真错误的概率
检验统计量:据以对原假设和备择假设做出决策的某个样本统计量
拒绝域与接受域:
假设检验的步骤:
方法一:
方法二(P值法):
- 若P<α值,代表其面积要小于拒绝域的面积,处于拒绝域内,则在显著性水平α下拒绝原假设
- 若P>=α值,代表其面积大于拒绝域的面积,处于接受域内,则在显著性水平α下无法拒绝原假设
注意:双侧检验P值是单侧检验的double
显著性标记
SPSS:分析-》相关-》双变量-》移到右边-》皮尔逊相关系数-》双尾显著性检验-》标记显著性相关性
也可以使用Matlab计算,将变量值为1的进行三星的显著性标记,但表下方要有对应的文字说明
%% 计算各列之间的相关系数以及p值 [R,P] = corrcoef(Test) % 在EXCEL表格中给数据右上角标上显著性符号吧 P < 0.01 % 标记3颗星的位置 (P < 0.05) .* (P > 0.01) % 标记2颗星的位置 (P < 0.1) .* (P > 0.05) % % 标记1颗星的位置