統計學是通過什么檢測兩個變量之間是否有關系?
例如身高和性別是否有關系
答:通過檢測男性樣本的身高均值 VS 女性樣本的身高均值 是否有差異,
有差異就說明兩個變量之間存在關系。檢驗均值的差異是否為零,不看大小只看是否為零
參數估計
例題:北京市領導想知道當年住宅價格增長率是否達到了國家限定的閾值,比如10%
1.我們需要的是總體數據,但總體無法全部獲取到,所以我們只能抽樣,用樣本去估計總體參數
2.拿到樣本后,我們能得到樣本的統計量(樣本均值x、樣本方差s2、樣本標准差s)
3.我們實際想要的其實是總體參數(總體均值μ、總體方差σ2、總體標准差σ)
4.既然要用樣本參數去估計總體參數,就有兩種估計方法,一種是點估計,一種是區間估計。點估計記住下面兩個公式
5.點估計的准確性如何呢?它取決於抽樣的偏差,如果我們抽樣不均衡會出現偏差,因此就出現了另一種估計方法,也就是區間估計。既然用一個點去估計存在偏差,那我們就使用一段區間,也就是所謂的置信區間。
置信區間怎么得到呢?以95%置信度為例,置信區間為,以樣本均值為中心左右兩個標准差之間的范圍。
標准差從何而來呢?它是樣本均值的標准差,也即標准誤。為了計算樣本均值的標准差,我們需要抽取多個樣本 ,然后計算每個樣本的均值,獲得一組樣本均值,然后再計算這些均值的標准差,這樣就得到了標准誤。
但是,缺點是我們需要多次取樣,方能計算出標准誤。不過統計學家給出了計算標准誤的公式,這樣就無需多次取樣了。
這樣我們就能可以計算置信區間了。