clc clear close all R3 = binornd(100,0.5,100,1); R4 = binornd(1000,0.5,1000,1); R5 = binornd(10000,0.5,10000,1); figure subplot(1,3,1) histfit(R3) title('N = 100') subplot(1,3,2) histfit(R4) title('N = 1000') subplot(1,3,3) histfit(R5) title('N = 10000')

我們的R3,R4,R5分別是從N=100,1000,10000次二項分布中生成的,清晰的看到隨着N的增加,這個分布越來越接近我們這個具有代表性的的這個正態分布了。
事實上,這個東西的嚴格的講還有特別厲害的名字,中心極限定理, wiki上有一段有趣的歷史。Tijms (2004, p.169) 寫到:
中心極限定理有着有趣的歷史。這個定理的第一版被 法國 數學家 棣莫弗發現,他在1733年發表的卓越論文中使用 正態分布去估計大量拋擲硬幣出現正面次數的分布。這個超越時代的成果險些被歷史遺忘,所幸著名法國數學家 拉普拉斯在1812年發表的巨著 Théorie Analytique des Probabilités中拯救了這個默默無名的理論。
拉普拉斯擴展了 棣莫弗的理論,指出二項分布可用正態分布逼近。但同 棣莫弗一樣, 拉普拉斯的發現在當時並未引起很大反響。直到十九世紀末中心極限定理的重要性才被世人所知。1901年,俄國數學家 里雅普諾夫用更普通的隨機變量定義中心極限定理並在數學上進行了精確的證明。如今,中心極限定理被認為是(非正式地) 概率論中的首席定理。
高斯對正態分布的導出准備
之前我們說到高斯對測量誤差研究中發現了正態分布,並且這項研究也成為了當代統計學的中重要的思想--最大似然發現的源頭。下面我們來仔細看看,他是如何導出這個完美的分布的。
首先我們要解釋幾個概念,第一個是似然(Likelihood)。什么是似然,簡單通俗的來講就是,一系列的概率密度函數的乘積,說白了也就是還是一種特別的復合的“概率”。比如對於正態分布,如果有獨立同分布的觀察值
,則其的似然為:
當然,我們也可以看到對於正態分布,這里還依賴於兩個參數,就是
。所以我們其實也可以將這個似然看成關於
的二元函數。當然在給其中一個參數的情況下,我們也可以將其看成關於另一個的函數。另外,從數值上講概率是在[0,1],所以n個連乘之后也還是在[0,1]。
是分布均值的真實值,當然真實值我們永遠都不可能知道,因為我們活在一個誤差的世界,然后現在希望根據觀測值
盡可能的去估計它。首先我們記觀察誤差
的分布密度函數為
,然后給以下假設(數學的世界充滿假設,沒有假設的數學,如沒有根的浮萍,毫無意義)。
關於
對稱,且對於一切
成立
.
具有連續的導函數。
關於
對稱,這個非常合理,因為我們的似然誤差分布密度為
,也就是
觀測值與真實均值的差,這個自然在左在右可能性一樣嘍,不然這個觀測試驗也就有偏頗了,當然另一個理由也就是經驗了。再說非負性要求,這個也是必須的,概率么自然是非負的啦。第二條,連續的導函數,這個自然主要是為了推倒的方便啦。
由於我們的觀察誤差
的分布密度函數為
,那么此時的似然函數就是
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1MJTI4JTVDbXUlMjkrJTNEKyU1Q3Byb2RfJTdCaSUzRDElN0QlNUVuK3AlMjh4X2krLSslNUNtdSUyOQ==.png)
實際上,這個似然函數刻畫了這組觀測值落在真實均值
附近的可能性大小。當然此處高斯還給出了一個重要的假設:
觀察值的平均值
作為未知參數
的估計值時使得似然
最大。
高斯對正態分布的導出的具體過程
若
使得似然函數似然
最大,則根據數學分析(當然大多數人你們學的是微積分,或者是高等數學)的結論,它的必要條件是關於參數
導函數在
處為0。
..................................... (1)
此時,我們記
,根據復合函數的求導法則(鏈式法則),具體是針對對數函數的那個,我們可以得到
,同時根據連續函數假設,我們可以對等式(1)進行簡化,
![]()
其中第一個等號到第二個等號用的是對數函數的性質(積的對數函數等於對數函數的和),第二等式到第三個么是求導的性質(和的導數等於導數的和),第三到第四么就是g(x)的定義以及復合函數求導法則,之后就是帶入啦。所以最后我們可以得到的是
.....................................(2)
若此時,我們簡化考慮,令n = 2, 則方程(2)進一步簡化可以得到
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1nJTI4eF8xKy0rJTVDYmFyJTdCeCU3RCUyOSslMkIrZyUyOHhfMistKyU1Q2JhciU3QnglN0QlMjkrJTNEKzA=.png)
由於
以及,
的任意性,我們可以得到g(x)是個中心對稱函數,即
對一切實數x成立。
另外,當n=3時,方程(2)可以簡化得到
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1nJTI4eF8xKy0rJTVDYmFyJTdCeCU3RCUyOSslMkIrZyUyOHhfMistKyU1Q2JhciU3QnglN0QlMjkrJTJCK2clMjh4XzMtJTVDYmFyJTdCeCU3RCUyOSUzRCsw.png)
由於
以及,
的任意性,我們可以得到對一切實數
成立,
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1nJTI4eCUyOSslMkJnJTI4eSUyOSslM0QrZyUyOHglMkJ5JTI5.png)
這也是個大名鼎鼎的方程,叫柯西函數方程,這類方程在有理數范圍內,可以得到唯一的通解(當然根據連續性聯系,結合有限覆蓋原理可以得出在實數域內也有唯一的此種解,比較復雜,這里就不詳細討論了),
。因此,很快我們可以得到一個微分方程,即
, 這里可能需要一些簡單的微分方程的知識就可以直接得到,不過這里我們可以直觀的想一下,哪個函數的的求導之后會出現左邊的形式呢?
鏈接:https://zhuanlan.zhihu.com/p/24437232
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
對嘛,ln函數呀!
。然后再想一下,什么函數的導數會是右邊形式呢?
嗯,好像二次函數的求導之后就是這樣哦!所以嘛,最后這個方程結果是:
由於
是密度函數,需要大於0小於1,因此我們需要令
,否則這樣的指數函數分分鍾大於1了哈,不妨我們記
,則
.............................................................................(3)
當然不要忘記了,概率密度函數的在可行范圍內的積分需要為1哦,即
,結合方程(3)可以解出
。什么?這個積分不會算么?啊?我想想,這個還是去找個多元微積分教材看看吧,對了,還有個好辦法,做題神器,高級計算器,maple,非常好用,下面有連接,輸入公式,再復雜的微積分題也可以算出來(不對,其實不一定哈,不過至少你們課本上的題無論常義積分還是反常積分都是秒算哈,不過用多了你的數學基礎估計就廢了,考試也不用指望了),所以想要打基礎好好學習把,不過想要快速解決問題,這個一定是上選!
最后系數算出來之后我們就得到了z著名的誤差公式,當然也是正態分布的密度函數,看着是不是很眼熟,對,沒錯,我想你應該有印象,對,你應該記住了,就是這個完美的分布!
![[公式]](/image/aHR0cHM6Ly93d3cuemhpaHUuY29tL2VxdWF0aW9uP3RleD1wJTI4eCUyOSslM0QrJTVDZnJhYyU3QjElN0QlN0IlNUNzcXJ0JTdCMiU1Q3BpKyU1Q3NpZ21hJTVFMiU3RCU3RCtlJTVFJTdCLSU1Q2ZyYWMlN0J4JTVFMiU3RCU3QjIlNUNzaWdtYSU1RTIlN0QlN0QlMkMrJTVDcXF1YWQrLSU1Q2luZnR5KyUzQyt4JTNDJTVDaW5mdHk=.png)
參考文獻
李賢平, 概率論基礎 (第三版). 高等教育出版社, 2010.
作者:驀風星吟
鏈接:https://zhuanlan.zhihu.com/p/24437232
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
