一、連續變量與連續變量的相關分析------ > 用相關分析
相關分析是指連續變量之間的一種非嚴格的相依賴的變化關系,具體表現為:當一個變量發生時,另一個變量隨之發生相應線性變動的關系,我們一般可以用相關系數 r 大小來衡量兩個連續變量的相關性強弱(注意:不是衡量因果關系),例如衡量客戶入網時長和每月話費的相關分析。
r 的公式如下:(一般是由計算機為我們算出)
但因為相關系數r是通過樣本量數據計算的,而實際的總體相關系數我們是未知的,因此相關系數r是否具備足夠的說服能力,我們需要進行檢驗,對應的檢驗統計量是T檢驗,即用T來衡量兩個連續變量是否有關系。
T 統計量的原假設H0:兩個變量沒有相關性
如果T 統計量發生的概率P值小於5%,,則拒絕原假設,如果P大於5%,則我們沒有理由拒絕原假設,但我們也不能完全說原假設成立;比如我們分析時發現,算出兩個變量的相關系數 r 非常高,但T統計量的P值大於5%(即不拒絕原假設,認為兩個變量沒有關系),此時並不是矛盾,這種情況的發生大多是因為樣本量不夠造成的,這只能說,兩個變量可能存在相關性,但算出來的這個相關系數 r 的可靠性不高,我們可以通過增加樣本量再算一次,來進一步分析結果。
t 統計量公式是:(我們一般是看 t 統計量發生的概率P來判斷是否拒絕原假設)
引申知識: