概率統計19——中心極限定理

本文轉載自查看原文 2020-02-16 17:55 3434 公式推導/ 概率/ 中心極限定理/ 棣莫弗-拉普拉斯定理

　　大數定律告訴我們，如果想要求得一個隨機變量的期望，只需要進行多次重復試驗，然后取均值就可以了。然而在使用大數定律時仍然需要小心，因為大數定律並沒有明確指出到底需要多少次試驗才能充分接近我們所期待的極限。無論實驗多少次，我們仍然不能否認存在這樣的情況：所拋出的骰子全部是同一點數，盡管這種情況發生的概率很小。

　　用Y_n表示一系列獨立同分布的隨機變量X₁, X₂, …, X_n之和，既然X₁, X₂, …, X_n是隨機變量，那么它們的和也是隨機的。

　　一個令人驚奇的事實是，Y_n的標准化形式總是趨近於正態分布。這意味着隨機過程呈現出不確定性的表面下，其實是高度組織化的，所有隨機變量最終都歸於正態分布。這種現象就是中心極限定理的客觀背景。

標准化處理

　　對於Y_n來說，我們知道它的期望和方差：

　　為了簡單起見，可以先假設μ=0，σ²> 0，這樣就可以認為Y_n期望等於X_i的期望。

　　方差刻畫了單個隨機變量相對於均值的波動程度，類似地，我們也想要知道隨機變量之和的波動，以便了解“骰子全部都是1點”這種小概率事件發生的幾率。問題是，當n→∞時，Y_n的方差是發散的：

　　隨着n的增大，Y_n的分布越來越均勻，在這種情況下討論Var(Y_n)沒有任何意義：

Y_n的分布越來越均勻

　　為了能夠有效地討論Y_n的方差，需要對其進行標准化處理。

　　如果把變量做一個線性變換，可以發現下面的現象：

　　只要令X^* = (X - μ)/σ，就可以讓任意隨機變量的期望化為0，方差化為1，這種轉換稱為標准化或歸一化。

　　Y_n的標准化是：

中心極限定理

　　中心極限定理告訴我們，如果有一個獨立同分布的隨機變量序列X₁, X₂, …, X_n，它們的期望為μ，方差為σ²>0，那么關於這些隨機變量之和Y_n的標准化變量Y_n^*的分布函數F_n(x)，對於任意x滿足：

　　想要證明這個定理並不容易，但我們可以在后文中給出一個從旁側擊的論據。

　　Y_n^*是Y_n的標准化，二者的分布是一回事，因此中心極限定理的另一種寫法是：

　　這里的~符號表示“近似於”。也就是說，對於均值為μ，方差為σ²>0的獨立同分布的隨機變量X₁, X₂, …, X_n之和Y_n的標准化變量Y_n^*，當n充分大時，Y_n^*趨近於均值為0，方差為1的正態分布：

　　我們可以把Var(X_i)看作一個微小的誤差，Y_n是微小誤差的累加。中心極限定理告訴我們，當無數次微小誤差的逐漸累加后，就會形成肉眼可見的巨大變化，並最終接近正態分布。

另外兩種表達

　　在一般的情況下，很難求出Y_n的分布函數，尤其是我們面對的經常是“小數”時。在現實生活中，這個“小數”常常就是1，因此才會說“不以成敗論英雄”。但是當n充分大時，可以通過φ(x)給出其近似分布，這樣就可以利用正態分布對Y_n出現的概率進行分析。

　　把Y_n^*的分子和分母同時除以n：

　　於是得到了中心極限定理的另一種寫法：

　　上一章我們計算了大數定律下均值的期望和方差：

　　由此，中心極限定理的第三種寫法是：

　　以擲骰子為例，隨機變量X是每次投擲骰子的結果，出現1~6點的概率都是1/6，E[X]=3.5，其方差是：

　　我們用程序模擬多次投擲骰子。每次試驗投擲n次骰子，試驗1000次，看看這種情況下點數均值的分布。

 1 import numpy as np
 2 import matplotlib.pyplot as plt
 3 from scipy import stats
 4
 5 fig = plt.figure(figsize=(10, 5))
 6 plt.subplots_adjust(hspace=0.5)  # 調整子圖之間的上下邊距
 7
 8 mu, sigma_square = 3.5, 2.9167 # 骰子的期望和方差
 9 xs = np.arange(0, 7, 0.01)
10 for i, n in enumerate([2, 10, 20, 50]):
11     ax = fig.add_subplot(2, 2, i + 1)
12     means = [np.random.randint(1, 7, n).mean() for i in range(1000)] # 生成1000組均值
13     sigma = np.sqrt(sigma_square / n)
14     ax.hist(means, bins=30, density=True, alpha=0.2, edgecolor='black', label='試驗數據布')
15     ys = stats.norm.pdf(xs, mu, sigma)
16     ax.plot(xs, ys, 'r--', label='$Y_n/n$~N($\mu,\sigma^2$)')
17     ax.set_xlabel('$Y_n/n, n={}$'.format(n))
18     ax.set_ylabel('pdf')
19     ax.set_title('n={}'.format(n))
20     ax.legend(loc='upper right')
21
22 plt.rcParams['font.sans-serif'] = ['SimHei']  # 用來正常顯示中文標簽
23 plt.show()