看了《概率論與數理統計》上面說了大數定律和中心極限定律的推到。。。。沒時間去弄公式推到,現在大概了解,之后用到再去一步步推到。
中心極限定理:
設隨機變量X1,X2,......Xn,......獨立同分布,並且具有有限的數學期望和方差:E(Xi)=μ,D(Xi)=σ20(k=1,2....),則對任意x,分布函數都符合正太分布。
該定理說明,當n很大時,隨機變量

近似地服從標准正態分布N(0,1)。
這里的作用是判斷一個模型是否可以符合正太分布,下面課程的房價是一個不固定的因素受到天氣、人的心情、道路等。。。因素影響,且這些特征都是獨立的,所以可以把房價模型假設為正太分布,同時房價-預測=誤差,那么誤差也就是滿足正太N(0,1)分布了。
兩者的區別:
簡單來說,大數定律(LLN)和中心極限定理(CLT)的聯系與區別在於:
- 共同點:都是用來描述獨立同分布(i.i.d)的隨機變量的和的漸進表現(asymptotic behavior)
- 區別:首先,它們描述的是在不同的收斂速率(convergence rate)之下的表現,其次LLN前提條件弱一點:
, CLT成立條件強一點:
多說一句關於收斂速率,假設有 n 個 i.i.d 的隨機變量,令它們的和為
1.大數定律(以其中弱大數定律為例)說的是
~~~~~~~~~~~~ (1)
2.中心極限定理說的是
~~~~~~~~~~~ (2)
注意表達式(1)和表達式(2)差了個有沒有!
所以你就記住這條就不會混亂了,來,跟我念一遍:“差了個!”
很多人可能有個誤區,覺得(2)跟
~~~~~~~~~~~(3)
說的是一回事兒,或者覺得由(3)可以得到(1),但實際上(3)是一個極為不嚴謹的表述,因為箭頭右邊理論上是不能帶 n 的,帶了 n 的話極限就成0了,那就不是在描述一個確定的分布了。
另外還有一個誤區,就是覺得應用CLT必須標准化,但是實際上不用除以標准差,(2)本身就是對的。當然除了標准差也不會錯,因為根據Slutsky定理,(2)的左邊除以一個標准差的一致估計,右邊也就相應scale by 標准差,就變成了標准正態分布 N(0, 1)。
3.總結一下
一些自然界的某些事件(滿足一定條件),通過大量的練習和測試,結果會出現一個規律的表現。
其中這個規律就是大數定律和中心極值定律:
A.大數定律:取向於某個值(某個規律序列)。
B.中心定律:不僅有趨向的值,而且趨向的快慢和大小都有表現。