R-2 - 正態分布-中心極限-置信區間-正態假設檢驗


本節內容

1:樣本估計總體均值跟標准差,以及標准誤

2:中心極限定理

3:如何查看數據是否是正態分布QQ圖

4:置信區間的理解跟案例

5:假設檢驗

 參考文章:

假設檢驗的學習和理解

一、樣本估計總體均值跟標准差

多組抽樣
    估計總體均值 = mean(多組的各個均值)
    估計總體標准差 = sd(多組的各個標准差)
    標准誤 =  sd(多組的各個均值)
一組抽樣
    估計總體均值 = mean(一組的均值)
    估計總體標准差 = sd(一組的標准差)
    標准誤 =  估計的標准差/ sqrt(n)
標准誤:
    真實的標准誤 = 總體方差 / sqrt(n)  ##n個樣本的真實標准誤
    標准誤==是描述樣本均值的穩定性	

標准誤很重要:
  比如說讓你去估計全校的平均身高,
  你給如個一個1.7,還要給出一個置信區間,可行程度有多少?
  怎么給呢?這就需要用到標准誤了   置信區間就是,樣本均值跟標准誤計算出來的。

代碼實現樣本估計總體

set.seed(1)
xset =rnorm(300,1.7,2.4)

##多組抽樣估計總體均值和方差
ms = matrix(sample(xset,20*20,replace = T),20,20)  ##一行就是一組抽樣數據
me5 = mean(rowMeans(ms))  
sde5 = numeric()
for (i in 1:20){
  sde5[i] = sd(ms[i,])
  print(sd(ms[i,]))
}
sde5 = mean(sde5)
print(me5)  ## 1.749969
print(sde5) ##2.360055

##只抽取一組估計均值和方差
data1 = sample(ms,20)
mean(data1)  ##1.418414
sd(data1)   ##2.43754

##標准誤--》說的是均值的標准誤
#一組的標准誤
(sd(data1))/sqrt(20) #0.5073691

#多組的標准誤
sd(rowMeans(ms))  ##0.4417979


#一組數據真實的標准誤
2.4/sqrt(29)  ##0.4456688

二、中心極限定理

當樣本量足夠大的時候,樣本的均值就服從正態分布!!!
當樣本比較小的時候才會存在別的分布如t分布。

為什么要對數據進行取log

當你的數據分布是嚴重右偏的函數,我們要對數據取log,將數據分布變成偏向正態的分布。
為什么要這么做,就是為了讓它更加的去適用於中心極限定理。 

三:如何查看數據是否是正態分布QQ圖

q = rnorm(4000)
s3 = sample(q,300)
qqnorm(s3)
qqline(s3)   ##點離線越接近,越正態

 

四、置信區間的理解跟案例 

4.1:置信區間是什么意思:

比如說置信區間或者可信程度為95%,就是說100次的抽樣,有95次在總體均值范圍。

4.2:置信區間計算公式:

 4.3:數據服從正態分布時統計量的計算

#當可信程度為95%的時候的統計量,我們說的95%是區間中間的百分95
qnorm(1-(1-0.95)/2))  
#(1-0.95)/2 
#求的是中間圍繞95%的時候的累計概率是多少
#qnorm(累積概率) 得出對應的x軸數值 --》統計量

4.4:1-(1-pnorm(3))*2  怎么理解?

#三倍標准差所圍繞中間的面積 
#pnorm(3)求出來的是三倍標准差的累計概率是多少
#1-pnorm(3) 就求出了剩下的概率 
#1-(1-pnorm(3))*2  1-剩下概率*2  就是三倍標准差所圍繞中間的面積

 4.5:案例

讀取一份數據,是房價的增長率,作為增長率的95%的置信區間
head   tail  讀取文件的前【后】幾行
hist(rate,freq=F) ##將直方圖的y軸頻數變成密度
lines(desity(rate)) ##做出密度曲線
mean(rate)+c(-1,1)*qnorm(1-(1-0.95)/2)*sd(rate)/sqrt(150)
##抽樣的均值 加減  統計量*(標准誤)

五、假設檢驗

5.1:假設檢驗,形式化的可以總結為以下6步:

  1. 確定原假設H0和備選假設H1
  2. 根據H0,確定統計量的概率分布和相關參數
  3. 確定顯著性水平α和拒絕域
  4. 根據步驟2的參數,求出P值
  5. 查看P值是否位於拒絕域以內
  6. 做出判斷,如果P值在拒絕域以內,那么拒絕H0接受H1。否則接受H0拒絕H1

5.2:假設檢驗出現的兩種錯誤:

 

上面提到,假設檢驗不會100%確保檢驗結果正確,會出現上面的兩類錯誤:

  • 第一類錯誤:錯誤的拒絕原假設。原假設正確,但是卻錯誤的拒絕了,發生此事件的概率為α,也就是顯著性水平。所以顯著性水平越高,越容易發生。
  • 第二類錯誤:錯誤的接受原假設。原假設錯誤,但是卻接受了原假設。發生此事件的概率需要根據統計量的分布,和被選項假設具有具體值來確定,這里先略過(《Head First Statistics》假設檢驗這一章中舉了一個例子描述如何求解其概率)。

5.3:關於如何選取顯著性水平:

顯著性水平α一般為0.05,但是根據需要可以設為0.1或者0.01。當α較大時,第一類錯誤的概率增大,第二類錯誤的概率減少;α較小時,則相反。下面舉幾個例子:

一個汽車制造商正在考核新零件,該零件對車輛安全至關重要。目前正在抽樣檢測,你覺得α應該如何指定。

解答H0:新配件與原始配件的安全性能相同。H1:新配件比原始配件更安全。由於此配件關系用戶聲明安全,所以需要盡量使用較安全的配件,拒絕假設H0,那么可以設將α設置高一點,比如 0.1。

例2 一個機器中,有一個配件,替換成本十分高,但是如果該配件損壞了,對機器影響不大,請問顯著性水平應該如何選取。

解答 H0:配件正常工作。H1:配件損壞。由於替換成本較高,所以需要確保零配件的確損壞才能替換,可以將α設置較小,比如0.01。

5.4:如何理解假設檢驗的兩種錯誤

我們取了栗子:

 問題1:原假設是什么?

原假設H0:這個人是女
備假設H1: 這個人是男

問題2:女士誤殺為第一類錯誤,男士存活為第二類錯誤如何畫圖?

 圖中:

1:H0為女的分布,H1為男的分布。X軸是罩杯,我們判斷大於等於B的是女,然后畫紅線。

2:H0的分布在紅線右邊是誤殺的,H1的分布在紅線左邊是存活的。

3:我們就可以時理解說:女士誤殺的為檢驗的第一類錯誤,男士存活為檢驗的第二類錯誤。

4:將男士存活的記作β(貝塔),女士誤殺的為α(阿爾法),正確殺了男士的為統計功效=1-β

5:在統計學上:一般將α標記為0.05   β可容忍程度為20%,也就是1-β找出正確的概率為80%。

6:α和β,可以從圖中看出,二者是有相關的,當α取的小就形成了---寧錯殺不放過的寓意。

統計功效

是正確找出的概率 
常常在醫學等研究不僅僅給出p值就可以了,還需要給出統計功效。

問題3:對統計功效的延伸--》

很多時候我們不是說只是根據顯著性就可以判斷事件的,還要判斷基數謬誤的,特別是在醫學上的一些問題。

如:我們有100種葯物,有效的為5種,無效的為95種,利用統計學判斷正確找出葯物的概率

H0:這個葯物無效

H1:這個葯物有效

顯著性取==0.05    --》那么也就是說我們允許有0.05的誤差,會將無效葯物看成有效葯物有   95*0.05≈5種

統計功效==1-β=80%--》那么從正確的葯物找出是有效的有 5*0.8 = 4種

也就是說我們一共找出了9種葯物是有效的,可是實際僅僅只有5種,

那么我們這次的概率為5/9 = 44%的可信度,找出的9種葯物它的可信程度只有44%

5.5:假設檢驗案例

 

 

 

 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM