stata:相關性


相關性

這是一個帶有注釋的相關性分析的示例。我們在這個例子中使用了hsb2數據集。 變量readwritemathscience是200名學生在這些測試中得到的分數。 如果學生是女性,變量female是0/1變量編碼1,否則為0。 我們使用這個0/1變量來表明在“規則”相關中使用這樣的變量是有效的。

在 Stata 使用 correlation 命令時,默認情況下會刪除缺失值。當你進行缺失值刪除的時候,缺失值所在例子將會被一並刪除,即便此例子中其它變量存在有效值。例如,如果變量read存在一個缺失值,那么在計算readwrite之間的相關性時,這個缺失值所在例子仍然被排除在外。 這就是為什么對於所有的相關性,觀測值的數量是相同的,並且可以在輸出的頂部打印出來。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
corr read write math science female
(obs=200)

             |     read    write     math  science   female
-------------+---------------------------------------------
        read |   1.0000
       write |   0.5968   1.0000
        math |   0.6623   0.6174   1.0000
     science |   0.6302   0.5704   0.6307   1.0000
      female |  -0.0531   0.2565  -0.0293  -0.1277   1.0000

A. 這個告訴你在這個相關性計算中所使用對象的個數。 這個數據集沒有缺失值,因此所有的相關性計算都基於這所有的200個觀測值。

B. 這是readread之間的相關性。 任何變量與其本身之間的相關性總是為1。

C. 這就是writeread之間的相關性。它是正數,表明隨着一個分數的增加,另一個分數也會增加。相關性測量兩個變量之間線性關系的強度和方向。相關系數可以從 -1到 +1,-1表示完全負相關,+1表示完全正相關,0表示完全沒有相關,正負表示方向,絕對值大小代表強度。 (一個變量與自身的相關系數總是為1。) 你可以把相關系數看作是告訴你在給定另一個變量的值的情況下,你可以猜測一個變量的值的程度。 從下面readwrite變量的散點圖中,我們可以看到這些點沿着一條從左下角到右上角的直線,這就等於說相關系數是正的。 .5968描述一個在假象的線附近這些點的緊密程度。 如果相關性越高,這些點就更接近直線; 如果相關性越低,這些點就更遠離直線。

D. 這就是readfemale之間的相關性。 它是負數,表明一個分數下降,另一個分數增加。

缺失數據的成對刪除

下表中的相關性與上表中的相關性解釋方式相同。 唯一的區別是缺失值的處理方式。 當您執行成對刪除操作時,就像我們在本例中所做的那樣,只有當該對中的一個(或兩個)數據點丟失時,才會從相關性的計算中刪除一對數據點。

確實沒有規則定義什么時候應該使用成對刪除或列表刪除。 這取決於你的目的,以及在所有相關性中使用完全相同的例子是否重要。 如果你有大量缺失數據,一些相關性可能是基於並沒有包含在相關性計算的許多樣例中。 另一方面,如果您使用列表刪除,那么在計算中可能沒有多少樣例可用。

pwcorr read write math science female, obs

             |     read    write     math  science   female
-------------+---------------------------------------------
        read |   1.0000 
             |      200
             |
       write |   0.5968    1.0000 
             |      200       200
             |
        math |   0.6623   0.6174   1.0000 
             |      200      200      200
             |
     science |   0.6302   0.5704   0.6307   1.0000 
             |      200      200      200      200
             |
      female |  -0.0531   0.2565  -0.0293  -0.1277   1.0000 
             |      200      200      200      200      200

A.這是readwrite之間的相關性。是正數,表明隨着read分數的增加,我們預計wirte分數也會增加。

B. 這是在計算相關性時所使用的觀測數目。


Scatterplot

散點圖

scatter read write


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM