在論文中,結果的對比,常常用到皮爾遜相關系數,以檢查結果的提高程度!
1、簡介
皮爾遜相關也稱為積差相關(或積矩相關)是英國統計學家皮爾遜於20世紀提出的一種計算直線相關的方法。
假設有兩個變量X、Y,那么兩變量間的皮爾遜相關系數可通過以下公式計算:
公式一:
公式二:
公式三:
公式四:
以上列出的四個公式等價,其中E是數學期望,cov表示協方差,N表示變量取值的個數。
2、適用范圍
當兩個變量的標准差都不為零時,相關系數才有定義,皮爾遜相關系數適用於:
(1)、兩個變量之間是線性關系,都是連續數據。
(2)、兩個變量的總體是正態分布,或接近正態的單峰分布。
(3)、兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
3、Matlab實現
皮爾遜相關系數的Matlab實現(依據公式四實現):
也可以使用Matlab中已有的函數計算皮爾遜相關系數:
摘自:http://blog.csdn.net/wsywl/article/details/5727327
先舉個手算的例子
使用維基中的例子:
例如,假設五個國家的國民生產總值分別是1、2、3、5、8(單位10億美元),又假設這五個國家的貧困比例分別是11%、12%、13%、15%、18%。
創建2個向量.(R語言)
x<-c(1,2,3,5,8)
y<-c(0.11,0.12,0.13,0.15,0.18)
按照維基的例子,應計算出相關系數為1出來.我們看看如何一步一步計算出來的.
x的平均數是:3.8
y的平均數是0.138
所以,
sum((x-mean(x))*(y-mean(y)))=0.308
用大白話來寫就是:
(1-3.8)*(0.11-0.138)=0.0784
(2-3.8)*(0.12-0.138)=0.0324
(3-3.8)*(0.13-0.138)=0.0064
(5-3.8)*(0.15-0.138)=0.0144
(8-3.8)*(0.18-0.138)=0.1764
0.0784+0.0324+0.0064+0.0144+0.1764=0.308
同理, 分號下面的,分別是:
sum((x-mean(x))^2)=30.8
sum((y-mean(y))^2)= 0.00308
用大白話來寫,分別是:
(1-3.8)^2=7.84 #平方
(2-3.8)^2=3.24 #平方
(3-3.8)^2=0.64 #平方
(5-3.8)^2=1.44 #平方
(8-3.8)^2=17.64 #平方
7.84+3.24+0.64+1.44+17.64=30.8
同理,求得:
sum((y-mean(y))^2)=0.00308
然后再開平方根,分別是:
30.8^0.5=5.549775
0.00308^0.5=0.05549775
用分子除以分母,就計算出最終結果:
0.308/(5.549775*0.05549775)=1