相關性
這是一個帶有注釋的相關性分析的示例。我們在這個例子中使用了hsb2數據集。 變量read,write,math和science是200名學生在這些測試中得到的分數。 如果學生是女性,變量female是0/1變量編碼1,否則為0。 我們使用這個0/1變量來表明在“規則”相關中使用這樣的變量是有效的。
在 Stata 使用 correlation 命令時,默認情況下會刪除缺失值。當你進行缺失值刪除的時候,缺失值所在例子將會被一並刪除,即便此例子中其它變量存在有效值。例如,如果變量read存在一個缺失值,那么在計算read和write之間的相關性時,這個缺失值所在例子仍然被排除在外。 這就是為什么對於所有的相關性,觀測值的數量是相同的,並且可以在輸出的頂部打印出來。
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
corr read write math science female
(obs=200)
| read write math science female
-------------+---------------------------------------------
read | 1.0000
write | 0.5968 1.0000
math | 0.6623 0.6174 1.0000
science | 0.6302 0.5704 0.6307 1.0000
female | -0.0531 0.2565 -0.0293 -0.1277 1.0000
A. 這個告訴你在這個相關性計算中所使用對象的個數。 這個數據集沒有缺失值,因此所有的相關性計算都基於這所有的200個觀測值。
B. 這是read和read之間的相關性。 任何變量與其本身之間的相關性總是為1。
C. 這就是write和read之間的相關性。它是正數,表明隨着一個分數的增加,另一個分數也會增加。相關性測量兩個變量之間線性關系的強度和方向。相關系數可以從 -1到 +1,-1表示完全負相關,+1表示完全正相關,0表示完全沒有相關,正負表示方向,絕對值大小代表強度。 (一個變量與自身的相關系數總是為1。) 你可以把相關系數看作是告訴你在給定另一個變量的值的情況下,你可以猜測一個變量的值的程度。 從下面read和write變量的散點圖中,我們可以看到這些點沿着一條從左下角到右上角的直線,這就等於說相關系數是正的。 .5968描述一個在假象的線附近這些點的緊密程度。 如果相關性越高,這些點就更接近直線; 如果相關性越低,這些點就更遠離直線。
D. 這就是read和female之間的相關性。 它是負數,表明一個分數下降,另一個分數增加。
缺失數據的成對刪除
下表中的相關性與上表中的相關性解釋方式相同。 唯一的區別是缺失值的處理方式。 當您執行成對刪除操作時,就像我們在本例中所做的那樣,只有當該對中的一個(或兩個)數據點丟失時,才會從相關性的計算中刪除一對數據點。
確實沒有規則定義什么時候應該使用成對刪除或列表刪除。 這取決於你的目的,以及在所有相關性中使用完全相同的例子是否重要。 如果你有大量缺失數據,一些相關性可能是基於並沒有包含在相關性計算的許多樣例中。 另一方面,如果您使用列表刪除,那么在計算中可能沒有多少樣例可用。
pwcorr read write math science female, obs
| read write math science female
-------------+---------------------------------------------
read | 1.0000
| 200
|
write | 0.5968 1.0000
| 200 200
|
math | 0.6623 0.6174 1.0000
| 200 200 200
|
science | 0.6302 0.5704 0.6307 1.0000
| 200 200 200 200
|
female | -0.0531 0.2565 -0.0293 -0.1277 1.0000
| 200 200 200 200 200
A.這是read和write之間的相關性。是正數,表明隨着read分數的增加,我們預計wirte分數也會增加。
B. 這是在計算相關性時所使用的觀測數目。
Scatterplot
散點圖
scatter read write