Kendall’s tau-b,pearson、spearman三種相關性的區別(有空整理信息檢索評價指標)


同樣可參考:

http://blog.csdn.net/wsywl/article/details/5889419

http://wenku.baidu.com/link?url=pEBtVQFzTx0I9T9vr01WS6_NmOY7EylNwa-suKpx3ab1YZfL4QvYsPt2chXyvXOvU3bBa_CrTOaZ0QV_KmcMCmTrqXvZQNKy-cLHQ8J2Y0q

 

 

轉自:https://www.douban.com/note/267043565/

 

 

測量相關程度的相關系數很多,各種參數的計算方法及特點各異。

 連續變量的相關指標:

      此時一般用積差相關系數,又稱pearson相關系數來表示其相關性的大小,積差相關系數只適用於兩變量呈線性相關時。其數值介於-1~1之間,當兩變量相關性達到最大,散點呈一條直線時取值為-1或1,正負號表明了相關的方向,如果兩變量完全無關,則取值為零。

      作為參數方法,積差相關分析有一定的適用條件,當數據不能滿足這些條件時,分析者可以考慮使用Spearman等級相關系數來解決問題。

 有序變量的相關指標:

      所謂有序的等級資料的相關性/一致性高,就是指行變量等級高的列變量等級也高,反之亦然。如果行變量等級高而列變量等級低,則被稱為不一致。

 簡單相關分析:

      當兩個連續變量在散點圖上的散點呈現直線趨勢時,就可以認為二者存在直線相關趨勢,也稱為簡單相關趨勢。Pearson相關系數,也稱乘積相關系數,就是人們定量描述線性相關程度好壞的一個常用指標。

 積差相關系數的適用條件:

      在相關分析中首先要考慮的問題就是兩個變量是否可能存在相關關系,如果得到了肯定的結論,那才有必要進行下一步定量的分析。另外還必須注意以下幾個問題:

1、 積差相關系數適用於線性相關的情形,對於曲線相關等更為復雜的情形,積差相關系數的大小並不能代表相關性的強弱。

2、 樣本中存在的極端值對積差相關系數的影響極大,因此要慎重考慮和處理,必要時可以對其進行剔出,或者加以變量變換,以避免因為一兩個數值導致出現錯誤的結論。

3、 積差相關系數要求相應得變量呈雙變量正態分布,注意雙變量正態分布並非簡單的要求x變量和y變量各自服從正態分布,而是要求服從一個聯合的雙變量正態分布。

 以上幾條要求中,前兩者的要求最嚴,第三條比較寬松,違反時系數的結果也是比較穩健的。

 Spearman相關系數又稱為秩相關系數,使利用兩變量的秩次大小作線性相關分析,對原始變量的分布不做要求,屬於非參數統計方法。因此它的適用范圍比Pearson相關系數要廣的多。即使原始數據是等級資料也可以計算Spearman相關系數。對於服從Pearson相關系數的數據也可以計算Spearman相關系數,但統計效能比Pearson相關系數要低一些(不容易檢測出兩者事實上存在的相關關系)。

 Kendall’s tau-b等級相關系數是用於反映分類變量相關性的指標,適用於兩個變量均為有序分類的情況。

 簡單相關和偏相關有一個共同點,就是對所分析的數據背景應當有一定程度的了解。在這種情況下進一步進行積差相關系數的計算,以在定量的水平上對這種關聯予以確認。同理,計算偏相關系數也是同樣的情況,只是又在計算積差相關系數的基礎上考慮了其他因素的影響。但有的時候會遇到一種情況,在分析前對數據所代表的專業背景知識了解的尚不充分,本身就屬於探索性的研究,這時往往需要先對各個指標或者案例的差異性、相似程度進行考察,以先對數據有一個初步的了解,然后再根據結果考慮如何進行深入的分析。

 Distinces過程就可以用於計算記錄(或變量)間的距離(或相似程度),根據變量的不同類型,可以有許多距離、相似程度測量指標供用戶選擇。但由於本模塊只是一個預分析的過程,因此距離分析並不會給出常用的p值,而只給出各變量/記錄之間的距離大小,以供用戶自行進行判斷相似性。

 Distinces過程可以計算距離測量指標或者相似性測量指標,這可以在主對話框中加以切換。

 距離測量指標,根據不同的數據類型,距離測量指標也有所不同。分為連續性變量、頻數表資料和二分類變量三種。

 相似性測量指標時間上就是前述的那些相關分析指標體系,只是更為詳細一些,主要分為劑量資料和二分類變量兩種。

 相關和回歸描述的是兩變量間聯系的不同側面,簡單回歸分析就是尋找因變量數值隨自然量變化而變化的直線趨勢,並在散點圖上找到這樣一條直線,相應得方程也就被稱為直線回歸方程。

通過回歸方程解釋兩個變量之間的關系會顯得更為精確。除了描述兩個變量之間的關系外,回歸方程還可以進行預測和控制。

 無序分類變量的統計推斷:x2檢驗

主要用於檢驗某無序分類變量各水平在兩組或多組間的分布是否一致。還可以用於檢驗一個分類變量各水平出現的概率是否等於指定概率;一個連續變量的分布是否符合某種理論分布等。其主要用途:

1、 檢驗某個連續變量的分布是否與某種理論分布相一致。

2、 檢驗某個分類變量各類的出現概率是否等於制定概率。

3、 檢驗某兩個分類變量是否相互獨立。

4、 檢驗控制某種或某幾種分類因素的作用以后,另兩個分類變量是否相互獨立。

5、 檢驗某兩種方法的結果是否一致。

  

主成分分析只是一種中間手段,其背景是研究中經常會遇到多指標的問題,這些指標間往往存在一定的相關,直接納入分析不僅復雜,變量間難以取舍,而且可能因多元共線性而無法得出正確結論。主成分分析的目的就是通過線性變換,將原來的多個指標組合成相互獨立的少數幾個能充分反映總體信息的指標,便於進一步分析。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM