stata:相关性


相关性

这是一个带有注释的相关性分析的示例。我们在这个例子中使用了hsb2数据集。 变量readwritemathscience是200名学生在这些测试中得到的分数。 如果学生是女性,变量female是0/1变量编码1,否则为0。 我们使用这个0/1变量来表明在“规则”相关中使用这样的变量是有效的。

在 Stata 使用 correlation 命令时,默认情况下会删除缺失值。当你进行缺失值删除的时候,缺失值所在例子将会被一并删除,即便此例子中其它变量存在有效值。例如,如果变量read存在一个缺失值,那么在计算readwrite之间的相关性时,这个缺失值所在例子仍然被排除在外。 这就是为什么对于所有的相关性,观测值的数量是相同的,并且可以在输出的顶部打印出来。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
corr read write math science female
(obs=200)

             |     read    write     math  science   female
-------------+---------------------------------------------
        read |   1.0000
       write |   0.5968   1.0000
        math |   0.6623   0.6174   1.0000
     science |   0.6302   0.5704   0.6307   1.0000
      female |  -0.0531   0.2565  -0.0293  -0.1277   1.0000

A. 这个告诉你在这个相关性计算中所使用对象的个数。 这个数据集没有缺失值,因此所有的相关性计算都基于这所有的200个观测值。

B. 这是readread之间的相关性。 任何变量与其本身之间的相关性总是为1。

C. 这就是writeread之间的相关性。它是正数,表明随着一个分数的增加,另一个分数也会增加。相关性测量两个变量之间线性关系的强度和方向。相关系数可以从 -1到 +1,-1表示完全负相关,+1表示完全正相关,0表示完全没有相关,正负表示方向,绝对值大小代表强度。 (一个变量与自身的相关系数总是为1。) 你可以把相关系数看作是告诉你在给定另一个变量的值的情况下,你可以猜测一个变量的值的程度。 从下面readwrite变量的散点图中,我们可以看到这些点沿着一条从左下角到右上角的直线,这就等于说相关系数是正的。 .5968描述一个在假象的线附近这些点的紧密程度。 如果相关性越高,这些点就更接近直线; 如果相关性越低,这些点就更远离直线。

D. 这就是readfemale之间的相关性。 它是负数,表明一个分数下降,另一个分数增加。

缺失数据的成对删除

下表中的相关性与上表中的相关性解释方式相同。 唯一的区别是缺失值的处理方式。 当您执行成对删除操作时,就像我们在本例中所做的那样,只有当该对中的一个(或两个)数据点丢失时,才会从相关性的计算中删除一对数据点。

确实没有规则定义什么时候应该使用成对删除或列表删除。 这取决于你的目的,以及在所有相关性中使用完全相同的例子是否重要。 如果你有大量缺失数据,一些相关性可能是基于并没有包含在相关性计算的许多样例中。 另一方面,如果您使用列表删除,那么在计算中可能没有多少样例可用。

pwcorr read write math science female, obs

             |     read    write     math  science   female
-------------+---------------------------------------------
        read |   1.0000 
             |      200
             |
       write |   0.5968    1.0000 
             |      200       200
             |
        math |   0.6623   0.6174   1.0000 
             |      200      200      200
             |
     science |   0.6302   0.5704   0.6307   1.0000 
             |      200      200      200      200
             |
      female |  -0.0531   0.2565  -0.0293  -0.1277   1.0000 
             |      200      200      200      200      200

A.这是readwrite之间的相关性。是正数,表明随着read分数的增加,我们预计wirte分数也会增加。

B. 这是在计算相关性时所使用的观测数目。


Scatterplot

散点图

scatter read write


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM