python金融風控評分卡模型和數據分析微專業課(博主親自錄制視頻):http://dwz.date/b9vv
pearsonr皮爾森共線系數要求:
1.每個變量數據集符合正態分布
2. p值代表極端值出現概率,樣本量小時p值不可靠,但樣本量大於500時,p值具有很大參考價值。
https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html
https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.spearmanr.html
http://www.360doc.com/content/08/1228/23/50235_2219531.shtml
http://blog.csdn.net/lhkaikai/article/details/37352587
斯皮爾曼等級相關(Spearman’s correlation coefficient for ranked data)主要用於解決稱名數據和順序數據相關的問題。適用於兩列變量,而且具有等級變量性質具有線性關系的資料。由英國心理學家、統計學家斯皮爾曼根據積差相關的概念推導而來,一些人把斯皮爾曼等級相關看做積差相關的特殊形式。
公式:
其中:di=xi-yi表示兩個排序之間的差值;
n:表示樣本的大小,即機器學習算法的數量;
優點
缺點
積差相關
積差相關又稱積距相關,是當兩個變量都是正態連續變量,兩者之間呈線性關系時,表示這兩個變量之間的相關
使用條件
積差相關的使用條件是:
1、兩變量為連續變量,即變量數值取自等距或等比量表。
2、兩變量呈線性關系,這可由相關的散布圖的形狀來描述。
3、兩變量為正態分布,或接近正態分布,至少是單峰對稱的分布。
4、必須是成對數據,每對數據之間相互獨立。
5、要排除共同因素的影響。如果兩個變量都隨着一個共同因素在變化,即使算出的積差相關系數很高,也難以判斷兩個變量之間存在高度相關。
6、樣本容量大於30,計算出的積差相關系數才有意義。