聯合分布(一):什么是概率分布


1)基礎知識預備:概率分布

 1.1)定義:

  廣義地,它指稱隨機變量的概率性質,即一個隨機變量在概率空間的分布狀況

  狹義地,它是指隨機變量的概率分布函數,定義如下:

              對於任意實數a,有: FX(a) = P(X≤a) ,FX(a)即是a的概率分布函數,而 P(X≤a則是在隨機變量X取值≤a時的所有的概率之和所以概率分布函數又稱為累計概率函數

ps:個人認為叫做累計概率函數更好理解一些啊!!!更詳細的剖解請參考 https://www.jianshu.com/p/b570b1ba92bb

但是對於離散分布,再用FX(a) = P(X≤a) 這個公式表達就不准確了,因為FX(a)表示的是隨機變量X≤a的概率值之和,但是當X是離散隨機變量的話,X≤a顯然就不合理了。所以對於離散分布:

                     

 用語言來描述的話,就是:把所有小於等於x的概率值相加,所以本質上還是概率的累積值,只不過在表達上比上式更為嚴謹。

 

  1.2)研究的意義:

  說完了概率分布的定義,接下來我們當然要了解這個概率分布它到底有什么用,為什么我們要去研究它?這樣以便我們能夠更好的理解它。

  舉個例子吧:將每一天的降雨量設為X,顯然,這個X是一個隨機變量,那么你如果要研究降雨量,你是會選擇研究當X等於某一特定值得概率還是會選擇研究X落在實數域上某一區間上的概率呢?

  顯而易見,肯定是后者啦。你看天氣預報有把每個降雨量的概率告訴你嗎(當然這個也不可能。。。),還不是告訴你明天是小雨還是中雨或者是大雨用這樣的區間的形式。而概率分布就是描述一個隨機變量在某一個區間上的概率

  下面是從各處引用(ctrl+c、ctrl+v)來的我們經常會聽到的一些隨機分布。因為本文的重點是為了引出聯合分布這個知識點,所以對下面的各種分布就不多說了。

  ps:以上都是一些不成熟的個人見解,如果有誤,還煩請指出!

 

  1.3)常見的幾種分布:

  #二項分布:詳細請參考:https://zh.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85%E5%88%86%E4%BD%88

    二項分布是一種離散型的概率分布。故明思義,二項代表這個隨機變量只有兩種可能的結果。

      擲硬幣就是一個典型的二項分布。當我們要計算拋硬幣n次,恰巧有x次正面朝上的概率,可以使用二項分布的公式:

                        

       其中,p為正面朝上的概率

  #泊松分布

    泊松分布適合於描述單位時間內隨機事件發生的次數的概率分布。如某一服務設施在一定時間內受到的服務請求的次數

    泊松分布的概率質量函數為:

                      P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}

    泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。

  #正態分布

    又名高斯分布,是一個非常常見的連續概率分布。正態分布在統計學上十分重要,經常用在自然和社會科學來代表一個不明的隨機變量

    若隨機變量X服從一個位置參數(X的期望)為\mu 、尺度參數(X的標准差)為\sigma 的正態分布,記為:

                        X \sim N(\mu,\sigma^2),

    有幾種不同的方法用來說明一個隨機變量。最直觀的方法是概率密度函數,這種方法能夠表示隨機變量每個取值有多大的可能性。

    累積分布函數是一種概率上更加清楚的方法,請看下邊的例子。

    正態分布的概率密度函數:

                    

    正態分布的累計概率函數(由密度函數表示的):

                  

    正態分布的累積分布函數能夠由一個叫做誤差函數的特殊函數表示:

                  \Phi (z)={\frac  12}\left[1+\operatorname {erf}\left({\frac  {z-\mu }{\sigma {\sqrt  2}}}\right)\right].

    標准正態分布的累積分布函數習慣上記為\Phi ,它僅僅是指\mu=0\sigma=1的值,

                
\Phi(x)
=F(x;0,1)=
\frac{1}{\sqrt{2\pi}}
\int_{-\infty}^x
\exp\left(-\frac{t^2}{2}\right)
\, dt.

    將一般正態分布用誤差函數表示的公式簡化,可得:

                  
\Phi(z)
=
\frac{1}{2} \left[ 1 + \operatorname{erf} \left( \frac{z}{\sqrt{2}} \right) \right]
.

    關於正態分布的幾個特征:

    a.密度函數關於平均值對稱

    b.平均值與它的眾數(statistical mode)以及中位數(median)同一數值。

    c.函數曲線下68.268949%的面積在平均數左右的一個標准差范圍內。

    d.95.449974%的面積在平均數左右兩個標准差2 \sigma的范圍內。

    e.99.730020%的面積在平均數左右三個標准差3 \sigma的范圍內。

    f.99.993666%的面積在平均數左右四個標准差4 \sigma的范圍內。

    g.函數曲線的拐點為離平均數一個標准差距離的位置。

    關於正態分布的幾個性質:

  1. 如果X \sim N(\mu, \sigma^2) \,ab是實數,那么a X + b \sim N(a \mu + b, (a \sigma)^2) 
  2. 如果X \sim N(\mu_X, \sigma^2_X)Y \sim N(\mu_Y, \sigma^2_Y)是統計獨立的正態隨機變量,那么:
    • 它們的和也滿足正態分布U = X + Y \sim N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) 
    • 它們的差也滿足正態分布V = X - Y \sim N(\mu_X - \mu_Y, \sigma^2_X + \sigma^2_Y).
    • UV兩者是相互獨立的。(要求X與Y的方差相等)
  3. 如果X \sim N(0, \sigma^2_X)Y \sim N(0, \sigma^2_Y)是獨立正態隨機變量,那么:如果X_1, \cdots, X_n為獨立標准正態隨機變量,那么X_1^2 + \cdots + X_n^2服從自由度為n的卡方分布。
    • 它們的積X Y服從概率密度函數為p的分布
      p(z) = \frac{1}{\pi\,\sigma_X\,\sigma_Y} \; K_0\left(\frac{|z|}{\sigma_X\,\sigma_Y}\right),其中K_0是修正貝塞爾函數(modified Bessel function)
    • 它們的比符合柯西分布,滿足X/Y \sim \mathrm{Cauchy}(0, \sigma_X/\sigma_Y).

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM