問題來源
這個問題是在閱讀一篇論文 [1] 的時候想到的。
[1] 講的是知識圖譜的正確率評估。我們將知識圖譜的正確率定義為知識圖譜中三元組表述正確的百分比。為了得到正確的比例,我們可以逐一判斷是否正確,計算比例。可是這樣需要的時間太多了,這就好比“統計一百萬個人中身高大於1米8的人數”這樣的問題。
對於這種調查對象非常多的情況,一般使用抽樣調查。[1] 中使用的方法是,使用中心極限定理,對正確率做一個區間估計。
中心極限定理
中心極限定理講的是,樣本均值的分布趨於正態分布。
我們從知識圖譜中抽樣,我們得到 n 個樣本:\(X_1, X_2, ..., X_n, X_i = 0, 1\)。
樣本均值和樣本方差為:\(E(X_i) = \mu, D(X_i) = \sigma^2\)
根據中心極限定理,我們有:
區間估計
改寫正態分布為標准型:
使用概率形式表示置信區間:
因此我們可以說平均值 \(1-\alpha\) 的置信區間是:
問題來了
問題是,我們並不知道總體方差是多少。我們想要求解的是總體的均值,即正確率。然而,我們既不知道總體均值,也不知道總體方差。論文中,為什么能夠用未知的總體方差去求解置信區間呢?
答案
大數定律告訴我們,樣本越多,估計量接近真實值,也就是說樣本方差越接近真實方差。
對於大樣本來說,樣本方差和總體方差接近,所以我們可以使用樣本方差直接替代總體方差。此外,只有樣本量充分大(>30個),中心極限定理才能成立。在論文中,后面的公式都是用樣本方差來替代總體方差的。
真正的問題
這里還原一下,我一開始思考的思路,因為這個思路,陷入了亂七八糟的思考。
一開始,我認為,需要抽樣 n 次,每次抽樣 m 個,產生 n 個隨機均值,這 n 個隨機均值服從正態分布。接着,我看到浙大概率論(文末有截圖)中,有一個總體為正態分布的區間估計。於是,我將這 n 個隨機均值套入到圖中的公式。此時,還是不知道樣本方差,於是我認為應該采用 t 分布才對。於是才有了題目“在方差未知的情況下,均值的區間估計問題”。總的思路是:應用中心極限定理,再應用正態總體的區間估計。但是我仍然困惑,為什么能使用正態分布,而不是 t 分布。
經過搜索,我得出如下結論:
在方差未知的情況下,均值的區間估計,根據樣本量的多少,決定使用正態分布還是 t 分布。這里的樣本量對應的是 n 個均值變量的多少。
- 樣本量較大(>30),可以使用正態分布來做區間估計,並且直接用樣本方差來代替總體方差。
- 樣本量較小,使用 t 分布來做區間估計。
具體的原因是,t 分布隨着自由度的增長,會不斷趨近正態分布。t 分布的自由度為 樣本容量-1。
真正的答案
其實,不需要抽樣 n 次,每次抽樣 m 個,這個思路我覺得沒問題,但是麻煩。
我之所以產生這個思路,是因為對置信區間理解不夠透徹。置信區間是,目標變量在隨機區間的概率。
因此,當我們對一次采樣應用中心極限定理之后,我們可以得到樣本均值服從正態分布。將這個正態分布寫成概率形式,於是我們可以求解置信區間了,而不是像一開始的想法那樣先抽樣 n 次,每次抽樣 m 個。
總體流程
計算知識圖譜的正確率,我們需要采樣 n 個三元組。
采樣 n 次產生的變量為: \(X_1, X_2, ... X_n\),這 n 個隨機變量的均值分布服從正態分布。
我們可以得到置信區間,其中總體方差可以用樣本方差來替代,n 為樣本容量
參考文獻
[1] Efficient Knowledge Graph Accuracy Evaluation
截圖
來自浙大版概率論