相關性

這是一個帶有注釋的相關性分析的示例。我們在這個例子中使用了hsb2數據集。變量read，write，math和science是200名學生在這些測試中得到的分數。如果學生是女性，變量female是0/1變量編碼1，否則為0。我們使用這個0/1變量來表明在“規則”相關中使用這樣的變量是有效的。

在 Stata 使用 correlation 命令時，默認情況下會刪除缺失值。當你進行缺失值刪除的時候，缺失值所在例子將會被一並刪除，即便此例子中其它變量存在有效值。例如，如果變量read存在一個缺失值，那么在計算read和write之間的相關性時，這個缺失值所在例子仍然被排除在外。這就是為什么對於所有的相關性，觀測值的數量是相同的，並且可以在輸出的頂部打印出來。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
corr read write math science female
(obs=200)

             |     read    write     math  science   female
-------------+---------------------------------------------
        read |   1.0000
       write |   0.5968   1.0000
        math |   0.6623   0.6174   1.0000
     science |   0.6302   0.5704   0.6307   1.0000
      female |  -0.0531   0.2565  -0.0293  -0.1277   1.0000

A. 這個告訴你在這個相關性計算中所使用對象的個數。這個數據集沒有缺失值，因此所有的相關性計算都基於這所有的200個觀測值。

B. 這是read和read之間的相關性。任何變量與其本身之間的相關性總是為1。

C. 這就是write和read之間的相關性。它是正數，表明隨着一個分數的增加，另一個分數也會增加。相關性測量兩個變量之間線性關系的強度和方向。相關系數可以從 -1到 +1,-1表示完全負相關，+1表示完全正相關，0表示完全沒有相關，正負表示方向，絕對值大小代表強度。 (一個變量與自身的相關系數總是為1。) 你可以把相關系數看作是告訴你在給定另一個變量的值的情況下，你可以猜測一個變量的值的程度。從下面read和write變量的散點圖中，我們可以看到這些點沿着一條從左下角到右上角的直線，這就等於說相關系數是正的。 .5968描述一個在假象的線附近這些點的緊密程度。如果相關性越高，這些點就更接近直線; 如果相關性越低，這些點就更遠離直線。

D. 這就是read和female之間的相關性。它是負數，表明一個分數下降，另一個分數增加。

缺失數據的成對刪除

下表中的相關性與上表中的相關性解釋方式相同。唯一的區別是缺失值的處理方式。當您執行成對刪除操作時，就像我們在本例中所做的那樣，只有當該對中的一個(或兩個)數據點丟失時，才會從相關性的計算中刪除一對數據點。

確實沒有規則定義什么時候應該使用成對刪除或列表刪除。這取決於你的目的，以及在所有相關性中使用完全相同的例子是否重要。如果你有大量缺失數據，一些相關性可能是基於並沒有包含在相關性計算的許多樣例中。另一方面，如果您使用列表刪除，那么在計算中可能沒有多少樣例可用。

pwcorr read write math science female, obs

             |     read    write     math  science   female
-------------+---------------------------------------------
        read |   1.0000 
             |      200
             |
       write |   0.5968    1.0000 
             |      200       200
             |
        math |   0.6623   0.6174   1.0000 
             |      200      200      200
             |
     science |   0.6302   0.5704   0.6307   1.0000 
             |      200      200      200      200
             |
      female |  -0.0531   0.2565  -0.0293  -0.1277   1.0000 
             |      200      200      200      200      200

A.這是read和write之間的相關性。是正數，表明隨着read分數的增加，我們預計wirte分數也會增加。

B. 這是在計算相關性時所使用的觀測數目。

Scatterplot

散點圖

scatter read write

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。