本節內容
1:樣本估計總體均值跟標准差,以及標准誤
2:中心極限定理
3:如何查看數據是否是正態分布QQ圖
4:置信區間的理解跟案例
5:假設檢驗
參考文章:
一、樣本估計總體均值跟標准差
多組抽樣
估計總體均值 = mean(多組的各個均值)
估計總體標准差 = sd(多組的各個標准差)
標准誤 = sd(多組的各個均值)
一組抽樣
估計總體均值 = mean(一組的均值)
估計總體標准差 = sd(一組的標准差)
標准誤 = 估計的標准差/ sqrt(n)
標准誤:
真實的標准誤 = 總體方差 / sqrt(n) ##n個樣本的真實標准誤
標准誤==是描述樣本均值的穩定性
標准誤很重要:
比如說讓你去估計全校的平均身高,
你給如個一個1.7,還要給出一個置信區間,可行程度有多少?
怎么給呢?這就需要用到標准誤了
置信區間就是,樣本均值跟標准誤計算出來的。
代碼實現樣本估計總體
set.seed(1)
xset =rnorm(300,1.7,2.4)
##多組抽樣估計總體均值和方差
ms = matrix(sample(xset,20*20,replace = T),20,20) ##一行就是一組抽樣數據
me5 = mean(rowMeans(ms))
sde5 = numeric()
for (i in 1:20){
sde5[i] = sd(ms[i,])
print(sd(ms[i,]))
}
sde5 = mean(sde5)
print(me5) ## 1.749969
print(sde5) ##2.360055
##只抽取一組估計均值和方差
data1 = sample(ms,20)
mean(data1) ##1.418414
sd(data1) ##2.43754
##標准誤--》說的是均值的標准誤
#一組的標准誤
(sd(data1))/sqrt(20) #0.5073691
#多組的標准誤
sd(rowMeans(ms)) ##0.4417979
#一組數據真實的標准誤
2.4/sqrt(29) ##0.4456688
二、中心極限定理
當樣本量足夠大的時候,樣本的均值就服從正態分布!!! 當樣本比較小的時候才會存在別的分布如t分布。
為什么要對數據進行取log
當你的數據分布是嚴重右偏的函數,我們要對數據取log,將數據分布變成偏向正態的分布。 為什么要這么做,就是為了讓它更加的去適用於中心極限定理。
三:如何查看數據是否是正態分布QQ圖
q = rnorm(4000) s3 = sample(q,300) qqnorm(s3) qqline(s3) ##點離線越接近,越正態

四、置信區間的理解跟案例
4.1:置信區間是什么意思:
比如說置信區間或者可信程度為95%,就是說100次的抽樣,有95次在總體均值范圍。
4.2:置信區間計算公式:

4.3:數據服從正態分布時統計量的計算
#當可信程度為95%的時候的統計量,我們說的95%是區間中間的百分95 qnorm(1-(1-0.95)/2)) #(1-0.95)/2
#求的是中間圍繞95%的時候的累計概率是多少
#qnorm(累積概率) 得出對應的x軸數值 --》統計量
4.4:1-(1-pnorm(3))*2 怎么理解?
#三倍標准差所圍繞中間的面積 #pnorm(3)求出來的是三倍標准差的累計概率是多少 #1-pnorm(3) 就求出了剩下的概率 #1-(1-pnorm(3))*2 1-剩下概率*2 就是三倍標准差所圍繞中間的面積
4.5:案例

讀取一份數據,是房價的增長率,作為增長率的95%的置信區間 head tail 讀取文件的前【后】幾行 hist(rate,freq=F) ##將直方圖的y軸頻數變成密度 lines(desity(rate)) ##做出密度曲線 mean(rate)+c(-1,1)*qnorm(1-(1-0.95)/2)*sd(rate)/sqrt(150) ##抽樣的均值 加減 統計量*(標准誤)
五、假設檢驗
5.1:假設檢驗,形式化的可以總結為以下6步:
- 確定原假設H0和備選假設H1
- 根據H0,確定統計量的概率分布和相關參數
- 確定顯著性水平α和拒絕域
- 根據步驟2的參數,求出P值
- 查看P值是否位於拒絕域以內
- 做出判斷,如果P值在拒絕域以內,那么拒絕H0接受H1。否則接受H0拒絕H1
5.2:假設檢驗出現的兩種錯誤:

上面提到,假設檢驗不會100%確保檢驗結果正確,會出現上面的兩類錯誤:
- 第一類錯誤:錯誤的拒絕原假設。原假設正確,但是卻錯誤的拒絕了,發生此事件的概率為α,也就是顯著性水平。所以顯著性水平越高,越容易發生。
- 第二類錯誤:錯誤的接受原假設。原假設錯誤,但是卻接受了原假設。發生此事件的概率需要根據統計量的分布,和被選項假設具有具體值來確定,這里先略過(《Head First Statistics》假設檢驗這一章中舉了一個例子描述如何求解其概率)。
5.3:關於如何選取顯著性水平:
顯著性水平α一般為0.05,但是根據需要可以設為0.1或者0.01。當α較大時,第一類錯誤的概率增大,第二類錯誤的概率減少;α較小時,則相反。下面舉幾個例子:
例1 一個汽車制造商正在考核新零件,該零件對車輛安全至關重要。目前正在抽樣檢測,你覺得α應該如何指定。
解答H0:新配件與原始配件的安全性能相同。H1:新配件比原始配件更安全。由於此配件關系用戶聲明安全,所以需要盡量使用較安全的配件,拒絕假設H0,那么可以設將α設置高一點,比如 0.1。
例2 一個機器中,有一個配件,替換成本十分高,但是如果該配件損壞了,對機器影響不大,請問顯著性水平應該如何選取。
解答 H0:配件正常工作。H1:配件損壞。由於替換成本較高,所以需要確保零配件的確損壞才能替換,可以將α設置較小,比如0.01。
5.4:如何理解假設檢驗的兩種錯誤
我們取了栗子:

問題1:原假設是什么?
原假設H0:這個人是女 備假設H1: 這個人是男
問題2:女士誤殺為第一類錯誤,男士存活為第二類錯誤如何畫圖?

圖中:
1:H0為女的分布,H1為男的分布。X軸是罩杯,我們判斷大於等於B的是女,然后畫紅線。
2:H0的分布在紅線右邊是誤殺的,H1的分布在紅線左邊是存活的。
3:我們就可以時理解說:女士誤殺的為檢驗的第一類錯誤,男士存活為檢驗的第二類錯誤。
4:將男士存活的記作β(貝塔),女士誤殺的為α(阿爾法),正確殺了男士的為統計功效=1-β
5:在統計學上:一般將α標記為0.05 β可容忍程度為20%,也就是1-β找出正確的概率為80%。
6:α和β,可以從圖中看出,二者是有相關的,當α取的小就形成了---寧錯殺不放過的寓意。
統計功效
是正確找出的概率 常常在醫學等研究不僅僅給出p值就可以了,還需要給出統計功效。
問題3:對統計功效的延伸--》
很多時候我們不是說只是根據顯著性就可以判斷事件的,還要判斷基數謬誤的,特別是在醫學上的一些問題。
如:我們有100種葯物,有效的為5種,無效的為95種,利用統計學判斷正確找出葯物的概率
H0:這個葯物無效
H1:這個葯物有效
顯著性取==0.05 --》那么也就是說我們允許有0.05的誤差,會將無效葯物看成有效葯物有 95*0.05≈5種
統計功效==1-β=80%--》那么從正確的葯物找出是有效的有 5*0.8 = 4種
也就是說我們一共找出了9種葯物是有效的,可是實際僅僅只有5種,
那么我們這次的概率為5/9 = 44%的可信度,找出的9種葯物它的可信程度只有44%

5.5:假設檢驗案例

