今天聽課聽到這樣一個結論:如果假設檢驗的樣本量很大,那么顯著性水平α應該設得小一點。
為什么呢?我沒想通,於是去網上試圖查找答案。結果發現網上很多人還在糾結:如果假設檢驗的樣本量很大,那么會使假設檢驗的結果非常容易產生顯著性。這是不是真的?樣本量太大是不是不好?
我:??? 很久之前我就知道這種說法沒有道理,但是我從來沒有仔細去研究過這個問題。這次在知乎和stackexchange上搜羅了一下大家的回答,發現很多老師包括很多書上的說法都是錯誤的,在這里有必要澄清和記錄一下。
首先,有些人之所以認為大樣本會使假設檢驗結果更容易產生顯著性,理由如下:
投銅板,投的次數越多,某個統計檢驗量的值出現的可能性越小。(圖片摘自:https://www.zhihu.com/question/53199900?sort=created)

反對者說:這正說明了大樣本的好處呀。如果樣本量小,那么很可能假設檢驗的結果是由於偶然的原因導致的。樣本量越大,我們越可以肯定假設檢驗的結果是准確的。
還有一種理由是這樣的,以t檢驗為例,根據t值的計算公式:
,如果樣本量n越大,標准誤差就越小,這樣t值就越大,也就可以推出p值越小,這不就說明樣本量越大,結果越容易顯著嗎?
反對者說:如果效應量不變,那么這種說法是正確的。但是,在其他部分(α,1-β)不變的情況下,n越大,效應量越小,因此t值並不會因此變大。
反對者承認,在大樣本的情況下,我們會檢測出那些細小但有時不具有實際意義的差別。也就是說,即使假設檢驗的結果具有統計顯著性,但是由於該結果的效應量太小,因而該結果沒有什么意義。比如《A/B測試實例》這個例子,轉化率從30%到33%,這個需要提升的部分就是我們希望假設檢驗能檢測到的最小差別,以此可以計算出效應量。從樣本量的計算中可以看出來,在其他部分(α,1-β)不變的情況下,效應量越小,我們需要的樣本量就越大。因此,也就是說樣本量越大,假設檢驗也就越敏感,越容易檢測出細小的差別。但這並不是說我們不應該使用大樣本,而是說我們對假設檢驗結果的解釋依賴於效應量和敏感度。如果效應量很小,敏感度又很高,那么很可能結果具有統計顯著性但並沒有什么實際意義。
那么為什么大家都在爭論這個問題呢?誰也說服不了誰。我覺得是因為他們都沒有說清楚前提條件,以至於大家說話沒在一個頻道上。
如果我們保持效應量不變,也就是說把我們想要檢測出的最小差別確定好,此外把想要達到的power也確定好,那么如果樣本量大的話,統計檢驗量的值確實更容易被檢測出顯著。在這種情況下,我們應該把α調小一點,這樣可以同時很好地控制第一類錯誤和第二類錯誤出現的概率。
回到開頭說的這個結論,我問了教授,說是假設檢驗本身設計是沒錯的,但是人們經常會錯誤地使用它。不是說樣本量大了就不好,而是樣本量大了,我們應該把顯著性水平α調小一點,而不是生搬硬套,一直使用α=0.05。
