正態分布的推導

本文轉載自查看原文 2020-08-05 15:36 2657 數學

二項分布跟正態分布有什么關系呢？這就是棣莫弗這人的主要成就之一啦，他1734年發表的一篇關於二項分布文章中提出的，當二項隨機變數的位置參數n很大及形狀參數p為1/2時，則所推導出二項分布的近似分布函數就是正態分布。當然這個其實就是個極限問題，有興趣之后我們可以具體討論。但是這個結果確實是我們直觀上可以相像的，當然你還是無法想像，那我們來看看這個計算機的模擬試驗。

clc
clear
close all

R3 = binornd(100,0.5,100,1); 
R4 = binornd(1000,0.5,1000,1);
R5 = binornd(10000,0.5,10000,1);

figure
subplot(1,3,1)
histfit(R3)
title('N = 100')
subplot(1,3,2)
histfit(R4)
title('N = 1000')
subplot(1,3,3)
histfit(R5)
title('N = 10000')

我們的R3,R4,R5分別是從N=100，1000，10000次二項分布中生成的，清晰的看到隨着N的增加，這個分布越來越接近我們這個具有代表性的的這個正態分布了。

事實上，這個東西的嚴格的講還有特別厲害的名字，中心極限定理， wiki上有一段有趣的歷史。Tijms (2004, p.169) 寫到：

中心極限定理有着有趣的歷史。這個定理的第一版被法國數學家棣莫弗發現，他在1733年發表的卓越論文中使用正態分布去估計大量拋擲硬幣出現正面次數的分布。這個超越時代的成果險些被歷史遺忘，所幸著名法國數學家拉普拉斯在1812年發表的巨著 Théorie Analytique des Probabilités中拯救了這個默默無名的理論。

拉普拉斯擴展了棣莫弗的理論，指出二項分布可用正態分布逼近。但同棣莫弗一樣，拉普拉斯的發現在當時並未引起很大反響。直到十九世紀末中心極限定理的重要性才被世人所知。1901年，俄國數學家里雅普諾夫用更普通的隨機變量定義中心極限定理並在數學上進行了精確的證明。如今，中心極限定理被認為是(非正式地) 概率論中的首席定理。

然而，正態分布真正走入人們視線的並不是由這個無聊的投硬幣試驗所得的二項分布的逼近，而是實實在在的工程誤差分析中應用。據說wiki說，拉普拉斯在誤差分析試驗中使用了正態分布。勒讓德於1805年引入最小二乘法這一重要方法；而高斯則宣稱他早在1794年就使用了該方法，並通過假設誤差服從正態分布給出了嚴格的證明。

高斯對正態分布的導出准備

之前我們說到高斯對測量誤差研究中發現了正態分布，並且這項研究也成為了當代統計學的中重要的思想--最大似然發現的源頭。下面我們來仔細看看，他是如何導出這個完美的分布的。

首先我們要解釋幾個概念，第一個是似然（Likelihood）。什么是似然，簡單通俗的來講就是，一系列的概率密度函數的乘積，說白了也就是還是一種特別的復合的“概率”。比如對於正態分布，如果有獨立同分布的觀察值 $x_1,x_2,\cdots,x_n$ ,則其的似然為：

當然，我們也可以看到對於正態分布，這里還依賴於兩個參數，就是 $\mu,\sigma$ 。所以我們其實也可以將這個似然看成關於 $\mu,\sigma$ 的二元函數。當然在給其中一個參數的情況下，我們也可以將其看成關於另一個的函數。另外，從數值上講概率是在[0，1]，所以n個連乘之后也還是在[0，1]。

第二點是最大似然（Maximum Likelihood）,剛才說到對對正態這個似然，當然在給其中一個參數的情況下，我們也可以將其看成關於另一個的函數。因而，如果我們給定一個標准，那么是不是可以基於觀測值對其中的未知參數進行估計呢？這是個非常朴素想法，就好比方程的思想，原本一個函數，給定自變量，那么對應的函數值自然可以計算。反過來，若是給定一定函數值，理論上我們也希望試圖找到對應的自變量。這個想法再進一步就是，給定一個標准，比如最大，最小，我們基於這個標准，也試圖去尋找對應達到標准（比如最大，最小函數值）所對應的自變量，這就是參數估計的思想。回到最大似然的核心，在這里這個標准就是使得似然函數（關於某一或某一些參數的）最大，然后去估計對應的參數（基於觀測值）的值。至於為什么選擇似然函數呢，其實主要也是因為似然函數朴素簡單的表達出一種概率，一個基於n次觀測的整體的概率，這樣的情況下，我們自然朴素的認為或者是希望，似然中包含的合理的參數應該是使得我們整體的概率最大的一個或者是一組，因此才被我們觀測到。

好了，介紹這個這個，我們繼續重新回到正題，如何基於一些假設導出正態分布。實際的測量中，若 $\mu$ 是分布均值的真實值，當然真實值我們永遠都不可能知道，因為我們活在一個誤差的世界，然后現在希望根據觀測值 $x_1,x_2,\cdots,x_n$ 盡可能的去估計它。首先我們記觀察誤差 $x_i - \mu$ 的分布密度函數為 $p(x_i -\mu)$ ，然后給以下假設（數學的世界充滿假設，沒有假設的數學，如沒有根的浮萍，毫無意義）。

$p(x)$ 關於 $x=0$ 對稱，且對於一切 $x$ 成立 $p(x)>0$ .
$p(x)$ 具有連續的導函數。

下面我們來考察這兩個假設的合理性，首先 $p(x)$ 關於 $x=0$ 對稱，這個非常合理，因為我們的似然誤差分布密度為 $p(x_i -\mu)$ ，也就是觀測值與真實均值的差，這個自然在左在右可能性一樣嘍，不然這個觀測試驗也就有偏頗了，當然另一個理由也就是經驗了。再說非負性要求，這個也是必須的，概率么自然是非負的啦。第二條，連續的導函數，這個自然主要是為了推倒的方便啦。

由於我們的觀察誤差 $x_i - \mu$ 的分布密度函數為 $p(x_i -\mu)$ ，那么此時的似然函數就是

$L(\mu) = \prod_{i=1}^n p(x_i - \mu)$

實際上，這個似然函數刻畫了這組觀測值落在真實均值 $\mu$ 附近的可能性大小。當然此處高斯還給出了一個重要的假設：

觀察值的平均值 $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$ 作為未知參數 $\mu$ 的估計值時使得似然 $L(\mu)$ 最大。

事實上，下面的推導主要還是依賴於這個假設。回頭看看這個假設，其實也是符合邏輯和直觀感受的，這表明觀測的均值作為一個理論均值可以讓似然函數最大。

高斯對正態分布的導出的具體過程

若 $\bar{x}$ 使得似然函數似然 $L(\mu)$ 最大，則根據數學分析（當然大多數人你們學的是微積分，或者是高等數學）的結論，它的必要條件是關於參數 $\mu$ 導函數在 $\mu = \bar{x}$ 處為0。

..................................... (1)

此時，我們記 $\frac{d \ln p(x)}{d x} = g(x)$ ,根據復合函數的求導法則（鏈式法則），具體是針對對數函數的那個，我們可以得到 $g(x) = \frac{p'(x)}{p(x)}$ ，同時根據連續函數假設，我們可以對等式（1）進行簡化，

其中第一個等號到第二個等號用的是對數函數的性質（積的對數函數等於對數函數的和），第二等式到第三個么是求導的性質（和的導數等於導數的和），第三到第四么就是g(x)的定義以及復合函數求導法則，之后就是帶入啦。所以最后我們可以得到的是

$\sum_{i=1}^n g(x_i - \bar{x}) = 0$ .....................................(2)

若此時，我們簡化考慮，令n = 2, 則方程(2)進一步簡化可以得到

$g(x_1 - \bar{x}) + g(x_2 - \bar{x}) = 0$

由於 $x_1 -\bar{x} = -(x_2 -\bar{x})$ 以及， $x_1,x_2$ 的任意性，我們可以得到g(x)是個中心對稱函數，即 $g(x) = -g(-x)$ 對一切實數x成立。

另外，當n=3時，方程（2）可以簡化得到

$g(x_1 - \bar{x}) + g(x_2 - \bar{x}) + g(x_3-\bar{x})= 0$

由於 $x_1 -\bar{x} = -[(x_2 -\bar{x}) + (x_3 - \bar{x})]$ 以及， $x_1,x_2,x_3$ 的任意性，我們可以得到對一切實數 $x,y$ 成立，

$g(x) +g(y) = g(x+y)$

這也是個大名鼎鼎的方程，叫柯西函數方程，這類方程在有理數范圍內，可以得到唯一的通解(當然根據連續性聯系，結合有限覆蓋原理可以得出在實數域內也有唯一的此種解，比較復雜，這里就不詳細討論了)， $g(x) = b x$ 。因此，很快我們可以得到一個微分方程，即

$\frac{p'(x)}{p(x)} = bx \Rightarrow \frac{\mathrm{d} p(x)}{p(x)} =b x \cdot \mathrm{d} x$ , 這里可能需要一些簡單的微分方程的知識就可以直接得到，不過這里我們可以直觀的想一下，哪個函數的的求導之后會出現左邊的形式呢？

作者：驀風星吟
鏈接：https://zhuanlan.zhihu.com/p/24437232
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

對嘛，ln函數呀！ $\mathrm{d} \ln p(x) = \frac{\mathrm{d} p(x)}{p(x)}$ 。然后再想一下，什么函數的導數會是右邊形式呢？

嗯，好像二次函數的求導之后就是這樣哦！所以嘛，最后這個方程結果是：

$\ln p(x) = \frac{b}{2}x^2 + c \Rightarrow p(x) = e^{\frac{b}{2}x^2 + c}, -\infty <x < \infty$

由於 $p(x)$ 是密度函數，需要大於0小於1，因此我們需要令 $b<0$ ，否則這樣的指數函數分分鍾大於1了哈，不妨我們記 $b = - \frac{1}{\sigma^2}$ ，則

$p(x) = K e^{-\frac{x^2}{2\sigma^2}}, \qquad -\infty < x<\infty$ .............................................................................(3)

當然不要忘記了，概率密度函數的在可行范圍內的積分需要為1哦，即 $\int_{-\infty}^{\infty} p(x) dx = 1$ ，結合方程（3）可以解出 $K = \frac{1}{\sqrt{2\pi\sigma^2}}$ 。什么？這個積分不會算么？啊？我想想，這個還是去找個多元微積分教材看看吧，對了，還有個好辦法，做題神器，高級計算器，maple,非常好用，下面有連接，輸入公式，再復雜的微積分題也可以算出來（不對，其實不一定哈，不過至少你們課本上的題無論常義積分還是反常積分都是秒算哈，不過用多了你的數學基礎估計就廢了，考試也不用指望了），所以想要打基礎好好學習把，不過想要快速解決問題，這個一定是上選！

Maple 2016 - Technical Computing Software for Engineers, Mathematicians, Scientists, Instructors and Students - Maplesoft

最后系數算出來之后我們就得到了z著名的誤差公式，當然也是正態分布的密度函數，看着是不是很眼熟，對，沒錯，我想你應該有印象，對，你應該記住了，就是這個完美的分布！

$p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{x^2}{2\sigma^2}}, \qquad -\infty < x<\infty$

參考文獻

李賢平, 概率論基礎 (第三版). 高等教育出版社, 2010.

作者：驀風星吟
鏈接：https://zhuanlan.zhihu.com/p/24437232
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正態分布正態分布 [公式推導]用最簡潔的方法證明多元正態分布的條件分布一文讀懂:超詳細正態分布方差等於o的推導正態分布和標准正態分布的聯系及區別正態分布的前世今生(上) C++與正態分布 MATLAB擬合正態分布正態分布的3σ准則 7.5 正態分布