小概率事件
事件發生概率小於等於0.05,稱之為小概率事件。
P是啥
就是犯錯概率,得出錯誤結論的概率。
假設檢驗
小概率事件和反證法的應用。
H0:原假設
H1:備選假設
解釋:假設在H0前提下,我們得到目前手頭上的樣本,定義為一個概率事件,概率為α(0.05, 0.01, 0.001),是小概率事件。通過公式計算P值,P<α, 則確認我們得到目前手頭上的樣本是一個小概率事件,而小概率事件在一次試驗中是不可能發生的,但事實發生了,則原假設錯誤,接受備選假設。
另一種解釋:
H0:只存在抽樣誤差,不存在系統誤差
H1: 存在抽樣誤差和系統誤差
在只存在抽樣誤差的前提下,我們得到目前樣本的概率為P,如果P<α,則證明不只是存在抽樣誤差,還存在系統誤差。
兩類錯誤
α錯誤:第一類錯誤,接受了假的H1.
β錯誤:第二類錯誤,接受了假的H0.
1-β稱之為把握度,即有多大把握拒絕H0.
例子:
H0:A葯和B葯等效
H1:A葯優於B葯
葯監局更關注第一類錯誤,因為不想接受一個假葯,所以接受H1的要求嚴格,希望α很小。葯廠不希望拒絕有效的葯,所以希望β很小。
標准差和標准誤
標准差就是衡量樣本數據的離散情況。
標准誤是衡量抽樣的離散情況。是做多次抽樣,每次計算一個樣本均值,多次抽樣對應多個樣本均值,計算這些均值數據的標准差,稱之為標准誤。
率的標准差又稱率的標准誤.
變異系數
變異系數是標准差/均值,就是標准差是平均值的多少倍,變異是平均水平的多少倍。例如兩個樣本標准差和均值都不同,如何比較變異程度。用變異系數。
分布
是樣本統計量的分布規律,變異呈現出的規律,有相應的度量, 衡量變異的分布情況。
以t分布為例,公式為
T = 均值差/標准誤
以標准誤為單位,衡量均值差的分布情況。100%的t分數都在(-700,700)之間,即(-700,700)這個范圍覆蓋了100%的抽樣誤差(抽樣來自正態總體,觀測獨立),95%的t分數大概在(-13,13)之間,即這個范圍覆蓋了95%抽樣的誤差。不同樣本量下,t數值有波動。和假設檢驗相結合就是,在只有抽樣誤差的前提下,只有5%的t分數不在(-13,13)之間,5%小概率事件,認為是不可能發生的,抽樣誤差導致這么大差異的概率只有5%,所以不可能只存在抽樣誤差。
95%置信區間
做一百次試驗,得到一百個均值,每個均值加/減上對應的95% t 分數,進而得到100個置信區間,100個置信區間中有95個包含總體參數。
參數檢驗和分布
正態分布是關於樣本數據的分布,而t/F/卡方等分布是關於樣本統計量的分布。參數檢驗有前提條件,要求樣本來自正態總體,參數就是分布分數。
非參數檢驗
沒有關於樣本分布的前提條件,但也有對應的分數分布。比如T界值表,D界值表。
相關系數分子就是協方差
回歸模型預測值的變異(方差)就是殘差的方差
抽樣誤差決定樣本統計量和總體參數間的差異