斯皮爾曼等級相關(Spearman’s correlation coefficient for ranked data)


 

python金融風控評分卡模型和數據分析微專業課(博主親自錄制視頻):http://dwz.date/b9vv

 

 

pearsonr皮爾森共線系數要求:

1.每個變量數據集符合正態分布

2. p值代表極端值出現概率,樣本量小時p值不可靠,但樣本量大於500時,p值具有很大參考價值。

 

https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html

https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.spearmanr.html

 

 

 

 

 

http://www.360doc.com/content/08/1228/23/50235_2219531.shtml

http://blog.csdn.net/lhkaikai/article/details/37352587

 

斯皮爾曼等級相關(Spearman’s correlation coefficient for ranked data)主要用於解決稱名數據和順序數據相關的問題。適用於兩列變量,而且具有等級變量性質具有線性關系的資料。由英國心理學家、統計學家斯皮爾曼根據積差相關的概念推導而來,一些人把斯皮爾曼等級相關看做積差相關的特殊形式。

 

公式:

其中:di=xi-yi表示兩個排序之間的差值;

            n:表示樣本的大小,即機器學習算法的數量;

 

 

 

 

               
解:此題被試5人,不知是否為正態分布,所以用斯皮爾曼等級相關解題。其中,x為聽覺反應時間按大小排序,y為視覺反應時間按大小排序。d=x-y。
將n=5,∑d^2=6 帶入公式 1-[6·∑(di)^2 / (n^3 - n)]
得:ρ=0.7
答:這5人的視聽反應時等級相關系數為0.7,屬於高度相關。

優點

適用范圍廣泛,斯皮爾曼等級相關對數據條件的要求沒有積差相關系數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究。

缺點

一組能用積差相關計算的數據,如果改用等級相關,精確度會低於積差相關。凡符合積差相關條件的,最好不要用等級相關計算。

 

 

 


積差相關



積差相關又稱積距相關,是當兩個變量都是正態連續變量,兩者之間呈線性關系時,表示這兩個變量之間的相關
使用條件
積差相關的使用條件是:
1、兩變量為連續變量,即變量數值取自等距或等比量表。
2、兩變量呈線性關系,這可由相關的散布圖的形狀來描述。
3、兩變量為正態分布,或接近正態分布,至少是單峰對稱的分布。
4、必須是成對數據,每對數據之間相互獨立。
5、要排除共同因素的影響。如果兩個變量都隨着一個共同因素在變化,即使算出的積差相關系數很高,也難以判斷兩個變量之間存在高度相關。
6、樣本容量大於30,計算出的積差相關系數才有意義。

 

 

 
python機器學習生物信息學系列課(博主錄制): http://dwz.date/b9vw

微信掃二維碼,免費學習更多python資源

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM