相关性
这是一个带有注释的相关性分析的示例。我们在这个例子中使用了hsb2数据集。 变量read,write,math和science是200名学生在这些测试中得到的分数。 如果学生是女性,变量female是0/1变量编码1,否则为0。 我们使用这个0/1变量来表明在“规则”相关中使用这样的变量是有效的。
在 Stata 使用 correlation 命令时,默认情况下会删除缺失值。当你进行缺失值删除的时候,缺失值所在例子将会被一并删除,即便此例子中其它变量存在有效值。例如,如果变量read存在一个缺失值,那么在计算read和write之间的相关性时,这个缺失值所在例子仍然被排除在外。 这就是为什么对于所有的相关性,观测值的数量是相同的,并且可以在输出的顶部打印出来。
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
corr read write math science female
(obs=200)
| read write math science female
-------------+---------------------------------------------
read | 1.0000
write | 0.5968 1.0000
math | 0.6623 0.6174 1.0000
science | 0.6302 0.5704 0.6307 1.0000
female | -0.0531 0.2565 -0.0293 -0.1277 1.0000
A. 这个告诉你在这个相关性计算中所使用对象的个数。 这个数据集没有缺失值,因此所有的相关性计算都基于这所有的200个观测值。
B. 这是read和read之间的相关性。 任何变量与其本身之间的相关性总是为1。
C. 这就是write和read之间的相关性。它是正数,表明随着一个分数的增加,另一个分数也会增加。相关性测量两个变量之间线性关系的强度和方向。相关系数可以从 -1到 +1,-1表示完全负相关,+1表示完全正相关,0表示完全没有相关,正负表示方向,绝对值大小代表强度。 (一个变量与自身的相关系数总是为1。) 你可以把相关系数看作是告诉你在给定另一个变量的值的情况下,你可以猜测一个变量的值的程度。 从下面read和write变量的散点图中,我们可以看到这些点沿着一条从左下角到右上角的直线,这就等于说相关系数是正的。 .5968描述一个在假象的线附近这些点的紧密程度。 如果相关性越高,这些点就更接近直线; 如果相关性越低,这些点就更远离直线。
D. 这就是read和female之间的相关性。 它是负数,表明一个分数下降,另一个分数增加。
缺失数据的成对删除
下表中的相关性与上表中的相关性解释方式相同。 唯一的区别是缺失值的处理方式。 当您执行成对删除操作时,就像我们在本例中所做的那样,只有当该对中的一个(或两个)数据点丢失时,才会从相关性的计算中删除一对数据点。
确实没有规则定义什么时候应该使用成对删除或列表删除。 这取决于你的目的,以及在所有相关性中使用完全相同的例子是否重要。 如果你有大量缺失数据,一些相关性可能是基于并没有包含在相关性计算的许多样例中。 另一方面,如果您使用列表删除,那么在计算中可能没有多少样例可用。
pwcorr read write math science female, obs
| read write math science female
-------------+---------------------------------------------
read | 1.0000
| 200
|
write | 0.5968 1.0000
| 200 200
|
math | 0.6623 0.6174 1.0000
| 200 200 200
|
science | 0.6302 0.5704 0.6307 1.0000
| 200 200 200 200
|
female | -0.0531 0.2565 -0.0293 -0.1277 1.0000
| 200 200 200 200 200
A.这是read和write之间的相关性。是正数,表明随着read分数的增加,我们预计wirte分数也会增加。
B. 这是在计算相关性时所使用的观测数目。
Scatterplot
散点图
scatter read write