統計學_二型錯誤和功效(Type II Errors and Test Power)


python機器學習生物信息學系列課(博主錄制): http://dwz.date/b9vw
 
二型錯誤和檢驗功效
如果我們想問H1真正正確的概率?或問真實效應?
二型錯誤代表假陰性
B代表二型錯誤的概率 (假陰性)
power效應代表真陰性的概率
 
power即功效,是備擇假設正確時,結論為接受備擇假設的概率,即1-第二類錯誤的概率。 size即sample size,就是樣本量。樣本量越大當然功效越大了。

a= the probability for Type I errors
B=the probability for Type II errors ()power of the test)
 d, the effect size, i.e., the magnitude of the investigated effect relative to , the
standard deviation of the sample
 

If we want to answer the question “How much chance do we have to reject the
null hypothesis when the alternative is in fact true?,” or in other words, “What’s the
probability of detecting a real effect?,” we are faced with a different problem. To
answer these questions, we need an alternative hypothesis.
Type II errors are errors where the result is not significant, despite the fact that
the null hypothesis is false. In quality control, a Type II error is called a consumer
risk, because the consumer obtains an item that does not meet the regulatory
requirements.
In Fig. 7.7, a Type II error would be a “healthy” diagnosis (“negative” test result),
even though the subject has cancer.
The probability for this type of error is commonly indicated with B. The “power”
of a statistical test is defined as .(1-B)/*100, and is the chance of correctly accepting
the alternative hypothesis. Figure 7.5 shows the meaning of the power of a statistical
test. Note that for finding the power of a test, you need an alternative hypothesis

 

樣本量不足,功效power太低50%,說明實驗檢測陽性可靠性不高

 

增加樣本量后,效應power馬上提高,接近80%

 

 

 

 

 陽性預測值Positive Predictive Value

 陽性預測值是指篩檢試驗檢出的全部陽性例數中,真正“有病”的例數(真陽性)所占的比例,反映篩檢試驗結果陽性者患目標疾病的可能性。

 

 

 

P<0.05就萬事大吉了嗎?別天真了!統計功效你造嗎?

http://www.bioon.com/3g/id/6693500/

 

 

 

導語
 
寫實驗方案的時候,有沒有一個問題讓你頭大——需要多少樣本量才好?隨便捏一個看起來不錯的數,還是要怎樣去計算?如果這個問題沒有困擾到你,要么說明你已爐火純青毫不費力,要么當心你的實驗死得不明不白——就算最后做出來P<0.05,也有可能白做了(不要問我怎么知道的=_=)。
 
雖然往事不堪回首,但后來聽說不僅是青澀的研究僧,有些在實驗室里摸爬滾打了好幾年的博士后都未必能處理好,我好像又舒心一點了。
 
做統計,無非就是要看看我們的實驗得出的結果是否是一個真正的新發現,選取的樣本能在多大程度上代表整體。然而,要從數據中得到一個有說服力的結論,並不僅是追求p<0.05就可以了,我們還要考慮統計功效(Statistical Power),其中樣本量就是很重要的一個因素。低功效的實驗更容易得出虛假的結果,也就是說,你那個P<0.05沒啥卵用。
 
統計功效是個什么鬼?
 
統計功效,簡單說就是真理能被發現的可能性。就像胰島素能降低血糖這事是真實存在的,但人類能發現它的概率是多少?如果統計功效是0.8,就是說人類有80%的概率能發現它。
 
它的數學定義可用一個公式來概括,統計功效=1-β,此處的β是指第二類錯誤概率,即假陰性錯誤概率。還用那個胰島素的例子,就是說我實驗做得不好,統計功效太低,最后我以為胰島素和降血糖沒有關聯。這個結果顯然是錯的,我發生這種錯誤的概率就是β。從公式可以看出,實驗的統計功效越高,β就越低,就意味着我們就越能避免這種錯誤。所以要在設計實驗設計的時候就注意控制統計功效。
 
影響統計功效的因素有很多,主要的有3個:效應量、樣本量和α水平。
 
1.效應量(d)
 
兩組間差異的效應量由以下公式定義:
 
 
μ1:第一組的平均值
 
μ2:第二組的平均值
 
σ:總體標准差
 
 
如圖中案例A和案例B的情況,顯然各組平均值的差值(Δμ)越高,或標准差越低,都越容易檢測到組間差異(有統計學意義的結果)。效應量越大,統計功效就越大。
 
2. 樣本量
 
顯然,從整體中提取的樣本越多,樣本就越能代表整體,計算的效應量也越精確。但效應量是樣本固有特性,樣本量則是可以由自己掌握的,可以通過擴大樣本量來提高實驗的統計功效。
 
3. α水平
 
α水平也稱顯着性水平,即第二類錯誤概率,約定俗成地把它控制在0.05。如果把顯着性水平降至0.01,實驗能檢測出差異的概率就更低了,也就是說,要是當p=0.03,我也只好說這兩組沒有統計學差異。可見,p<0.01比p<0.05更難達到。
 
統計學差異有多靠譜?
 
統計功效也深深地影響着統計學差異的可靠性。統計功效越高的實驗意味着,它觀察到的統計學差異(P<0.05)能反映真實情況的可能性越大。這可以用陽性預測值(positive predictive value,PPV)來說明:
 
 
1 – β:統計功效,β為第二類錯誤概率。
 
α:第一類錯誤概率,通常設為0.05。
 
R:真陽性和假陽性的比例的比值。
 
比如說,某種試劑用來定性檢測某蛋白,真相是,在檢測結果為陽性的樣本中,有20%的真陽性和80%的假陽性,那么R就是0.20/0.80=0.25。你和小明分別用它做了實驗。你倆都得到了這個令人欣喜的結果,然而你的統計功效是0.8,而小明的統計功效是0.2。按照α=0.05來看,你的實驗的PPV就是:
 
 
也就是說,你的實驗結果有80%的可能接近真相。
 
而小明的實驗的PPV:
 
 
雖然他也做出了P<0.05的結果,但不幸這個實驗只有50%的概率接近真相,我仍然可以說小明的實驗質量不高,我不太信任他的結果。
 
所以說,當統計功效比較低時,p值就顯得虛弱無力,這個實驗就可能沒什么意義。
 
那么,怎樣才能提高我們實驗的統計功效呢?上面說了,在3大主要影響因素中,只有樣本量是我們可以控制的。雖說樣本量越大,統計功效越高,但是不要忘了一個很現實的限制因素:錢!!!
 
我想做900例,基金委就會想,900例要花多少錢,我憑什么給你?有做這么多的必要嗎?這時候你就用樣本量計算公式糊他一臉。
 
統計功效分析:有免費工具~
 
公式?你是不是已經感覺到凜烈的寒風撲面而來……
 
放心好了,現在有很多樣本量計算工具都是免費噠~不過我覺得最好用的還是這個在線工具:www.powerandsamplesize.com/Calculators/,它不僅能給你輕松算出需要的樣本量,還能給你公式,直接貼到標書上!它還提供R語言代碼,有興趣也可以參悟一下。
 
打開網頁如下:
 
 
左邊那一列導航里,除第一欄是網站和用法的簡介外,下面有30種不同實驗類型的樣本量計算器,分成幾大類:單樣本均數、兩樣本均數比較、K個樣本均數比較、單個率、兩樣本率比較、配對率比較、K個樣本率比較、時間-事件數據比較,OR值比較,SCSS的相對發病率、其他。
 
比如我要比較兩種葯物A和B對血清中P蛋白濃度的影響,在小樣本的預實驗中(或查文獻得知,總之我們需要知道這個參數),A葯物治療后P蛋白下降了32.3ug/L,B葯物組下降了38.6ug/L,總體標准差為7.2ug/L,現在我想擴大實驗,需要多大樣本呢?
 
在導航欄選擇“Compare 2 Means: 2-Sample, 2-Sided Equality”,在左上角的Calculate下拉框里選擇Sample Size:
 
 
然后看Power那一欄,我希望自己的實驗有80%的統計功效,所以填0.8,第一類錯誤概率,約定俗成填5%,下邊是按預實驗結果或文獻信息分別填上各組均值、總體標准差,Sampling Ratio填1,即兩組樣本量相等。最后點Calculate,就可以在左上的綠色框中看到,B組需要21人,兩組一共就是42人,再考慮下80%的依從率,湊個整大概就入組60例吧~呃,想要的900例沒有了……突然省了好多事。
 
右邊那個曲線,縱坐標是樣本量,橫坐標是可以選擇的,連坐標范圍都可以調整。本圖顯示的是A組平均值,可以貼心地告訴你,均值浮動的范圍內樣本量會怎樣變化。更換橫坐標還可以看到樣本量隨B組平均值、總體標准差、取樣比例的變化。三條曲線,分別是統計功效為70%、80%、90%時的樣本量變化,提供多種參考。
 
繼續拉到頁面下方:公式!!!
 
 
這個公式只要貼到標書上就好了~每種實驗的計算方法都是不一樣的,要是都背下來多痛苦啊。
 
再往下就是R語言代碼,有興趣就看看唄。
 
如果你的實驗要檢測多個指標怎么辦?那就每個指標都算一遍,取最大值,顯然要求最大的一個指標都滿足了,其他肯定不在話下。
 
這個網站還有另一個用處,就是當我們讀到一篇文獻,不知道它的結果有多靠譜,那么就在左上剛才我們選擇Sample Size的地方,換成Power,然后在下邊各欄填上實驗的各個參數,最后計算統計功效,也就可以作為是否相信這個研究結果的參考。
 
所以,並不是P<0.05就可以了,科研的水很深啊騷年。( 生物谷Bioon.com)
 
參考資料:
 
1.How Many Data Points Do I Need For My Experiment?

 

 

python金融風控評分卡模型和數據分析微專業課(博主親自錄制視頻):http://dwz.date/b9vv

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM