隨機變量概率密度函數和概率分布函數相關總結


概率密度函數和概率分布函數的基本概念:

隨機變量是指在任何時間點上,值都是不能完全確定的,最多只能知道它可能落在哪個區間上,那么怎樣去描述這個變量呢?只能通過概率。概率密度函數(Probability Density Function, PDF)和概率分布函數(又稱累積分布函數, Cumulative Distribution Function, CDF)分別從兩個不同的角度來描述隨機變量的概率。在說明PDF和CDF之前,首先來看一個統計問題,對於一組隨機數,通常可以利用直方圖來表示這組隨機數在各個區間上的分布情況,如下圖所示為隨機生成100000個高斯分布的樣本

圖1 直方圖和概率密度函數示意圖
畫直方圖需要經過以下步驟:1)確定區間數目和區間大小;2)統計每個區間上的樣本數目;3)根據每個區間上的樣本數目決定該區間對應的矩形的高度並繪制直方圖。所以樣本分布在每一個區間上的概率可以通過該區間上的樣本數除以總樣本數求得。當區間無限小時(通常對應連續取值的樣本),直方圖退化為一條連續的曲線,這條曲線對應的函數表達式就稱為PDF。從上面的分析可以看出離散樣本情況下要求樣本出現在某一范圍內的概率,可以通過將對應區間上的直方圖求和得到,而對於連續樣本,其對應區間上的PDF與x軸圍成的面積,即表示樣本落在該范圍上的概率,可以通過下面的表達式來表示

\[P(x_1 < x \leq x_2)=\int_{x_1}^{x_2} {f(x)dx} \tag{1} \]

顯然\(f(x) \geq 0\),且\(\int_{x_1}^{x_2} {f(x)dx}=1\),為了從數學上更好地表示\((1)\),我們定義了CDF,其定義方式如下:

\[F(x)=P(X \leq x) \tag{2} \]

\((1)\)可以看出\(F(x)\)暗含着概率累積的概念,這也就是它為什么又叫做累積分布函數的原因,這通過離散型隨機變量的例子可以很容易理解,比如隨機變量\(X\)的取值是\(0 \backsim 5\)的整數,則\(F(3)=P(X \leq 3)=P(0)+P(1)+P(2)+P(3)\)。對比\((1)(2)\)兩式可得

\[P(x_1 < x \leq x_2)=F(x_2)-F(x_1)=\int_{x_1}^{x_2} {f(x)dx} \tag{3} \]

\((3)\)給出了PDF和CDF之間的關系,除此之外,它們還有如下一些常用的性質:

  1. \(F(x)\)是一個不減函數,即\(F(x_2)-F(x_1)=P(x_1 < x \leq x_2) \geq 0\),其中\(x_1 < x_2\)
  2. \(0 \leq F(x) \leq 1\),且\(F(-\infty)=\lim_{x \to -\infty}{F(x)}=P(X < -\infty)=0\)\(F(\infty)=\lim_{x \to \infty}{F(x)}=P(X < \infty)=1\)
  3. \(F(x)=\int_{-\infty}^x{f(t)dt}\)\(F'(x)=f(x)\)

顯然,當知道一個隨機變量的PDF或CDF之后,該隨機變量就能被很好描述了,所以確定隨機變量的PDF或CDF是隨機變量處理中的非常重要的一個內容。
PDF和CDF的更詳細的信息,可以參考相關資料,比如《概率分布函數、概率密度函數

上面討論的都是一個隨機變量的情況,在實際情況中經常需要考慮多個隨機變量,下面以二維隨機變量為例進行簡單的說明。設\(X\)\(Y\)為兩個隨機變量,顯然它們各自都有對應的PDF和CDF,分別記為\(f_X(x),F_X(x)\)\(f_Y(y),F_Y(y)\),同時這兩個隨機變量還共同組成一個PDF和CDF,記為\(f_{XY}(x,y),F_{XY}(x,y)\),則上面各個變量之間存在如下一些常用的基本的關系:

  1. \(F_{XY}(x,y)=P(X \leq x,Y \leq y)=\int_{-\infty}^y{\int_{-\infty}^x{f(\mu,\upsilon)d\mu d\upsilon}}\)\(F_{XY}(-\infty,\infty)=\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}{f(x,y)dx dy}}=1\)
  2. \(f_{XY}(x,y)=\frac{\partial^2 F_{XY}(x,y)}{\partial x \partial y}\)
  3. \(F_X(x)=F_{XY}(x,\infty),F_Y(y)=F_{XY}(\infty,y),f_X(x)=\int_{-\infty}^{\infty}{f_{XY}(x,y)dy},f_Y(y)=\int_{-\infty}^{\infty}{f_{XY}(x,y)dx}\)

需要注意的是各隨機變量之間可能是相關的,也就是彼此可能相互影響,所以綜合的PDF和CDF不僅與每個隨機變量各自的PDF和CDF有關,還和它們彼此之間的相關性有關。考慮一種最簡單的情況,即當所有隨機變量互相獨立時,此時可以得到以下常用的結論:

  1. \(P(X \leq x,Y \leq y)=P(X \leq x)P(Y \leq y),F_{XY}(x,y)=F_X(x)F_Y(y),f_{XY}(x,y)=f_X(x)f_Y(y)\)

更多多維隨機變量相關內容可以查閱資料,如《多維隨機變量


隨機變量函數的概率密度函數和概率分布函數:
在實際應用中往往關注的不是某個隨機變量的分布特征,而是這個隨機變量某個函數的分布特征,比如在對復隨機信號進行處理時,我們往往並不會關注它的實部、虛部分別滿足什么樣的分布,而是更希望了解它的幅度或功率的分布情況。因此需要探究如何根據已知隨機變量的分布情況,求它的某個函數的分布情況,首先來考慮單個隨機變量的情況,設隨機變量\(X\)的PDF和CDF分別為\(f_X(x),F_X(x)\)\(Y=g(X)\)為隨機變量\(X\)的一個函數,現在需要求解\(Y\)​的分布規律。求解方法如下:

\[\begin{equation} \begin{aligned} F_Y(y)&=P(Y \leq y)=P(g(X) \leq y)=P(X \leq h(y))=F_X(h(y))\\ f_Y(y)&=F_Y'(y)=f_X(h(y))h'(y) \end{aligned} \end{equation}\tag{4} \]

上面的式子僅展示了一個基本的求解思路,並不嚴謹,基本的思路就是利用函數表達式\(Y=g(X)\),將\(X\)表示為\(Y\)的函數,即\(X=h(Y)\),這樣就能利用\(X\)的分布情況來求\(Y\)的分布情況,以下給出更嚴謹的定理:

設隨機變量\(X\)​具有PDF\(f_X(x),-\infty < x < \infty\)​,又設函數\(g(x)\)​處處可導且恆有\(g'(x)>0\)​(或恆有\(g'(x)< 0\)​),則\(Y=g(X)\)​​​是連續型隨機變量,其概率密度函數為

\[f_Y(y)= \begin{cases} f_X[h(y)]|h'(y)|, & \text {$\alpha < y < \beta$} \\ 0, & \text{other} \end{cases} \tag{5} \]

其中\(\alpha=min[g(-\infty),g(\infty)],\beta=max[g(-\infty),g(\infty)]\)\(h(y)\)\(g(x)\)​​的反函數。

上面給出了單個隨機變量的函數的PDF求解方法,對於多個隨機變量函數的PDF,可以按照類似的思路進行處理,但是因為涉及到多個變量,顯然求解的過程會復雜很多,一般也沒有一個通用的表達式,通常也只需要根據實際情況進行具體的求解,以下通過兩個隨機變量函數的PDF求解來展示一下基本的過程:

(1) \(Z=X+Y\)​​​​​​的分布

\[\begin{equation} \begin{aligned} F_Z(z)&=P(Z \leq z)=P(X+Y \leq z)=\iint_{x+y \leq z} f_{XY}(x,y)\,dx\,dy=\int_{-\infty}^{\infty}{[\int_{-\infty}^{z-y}{f_{XY}(z-y,y)dx}]dy} \\ \stackrel{\mu=x+y}{\rightarrow} F_Z(z)&=\int_{-\infty}^{\infty}{[\int_{-\infty}^{z}{f_{XY}(\mu-y,y)d\mu}]dy}=\int_{-\infty}^{z}{[\int_{-\infty}^{\infty}{f_{XY}(\mu-y,y)dy}]d\mu} \end{aligned} \end{equation} \]

所以\(f_Z(z)=\int_{-\infty}^{\infty}{f_{XY}(z-y,y)dy}\),由於\(x,y\)在上面的式子中是完全對稱的,所以顯然有\(f_Z(z)=\int_{-\infty}^{\infty}{f_{XY}(x,z-x)dx}\),當\(X,Y\)相互獨立時,\(f_{XY}(x,y)=f_X(x)f_Y(y)\),所以此時\(f_Z(z)=\int_{-\infty}^{\infty}{f_X(z-y)f_Y(y)dy}\)\(f_Z(z)=\int_{-\infty}^{\infty}{f_X(x)f_Y(z-x)dx}\),可以看出此時隨機變量\(Z\)的PDF是隨機變量\(X,Y\)的PDF的卷積。

由於兩個高斯函數的卷積仍然為高斯函數,因此根據上面的結論可得,兩個服從高斯分布的相互獨立的隨機變量的和仍然服從高斯分布,更具體地:
\(X\)\(Y\)相互獨立且\(X \backsim N(\mu_x,\sigma_x^2)\)\(Y \backsim N(\mu_y,\sigma_y^2)\),則\(Z=X+Y\)仍然服從高斯分布,且\(Z \backsim N(\mu_x+\mu_y,\sigma_x^2+\sigma_y^2)\)。進一步地,有限個相互獨立的正態隨機變量的線性組合仍然服從正態分布,且若\(X_i \backsim N(\mu_i,\sigma_i^2),i=1,2,...,n\)\(Z=\sum_{i=1}^n{k_i X_i}\),則\(Z \backsim N(\sum_{i=1}^n{k_i \mu_i},\sum_{i=1}^n{k_i^2 \sigma_i^2})\)

(2) \(Z=Y/X\)​​​的分布

\[\begin{equation} \begin{aligned} F_Z(z)&=P(Z \leq z)=P(Y/X \leq z)=\iint_{y/x \leq z,x > 0} f_{XY}(x,y)\,dx\,dy+\iint_{y/x \leq z,x < 0} f_{XY}(x,y)\,dx\,dy \\ &=\int_0^{\infty}{[\int_{xz}^{\infty}{f_{XY}(x,y)dy}]}dx+\int_{-\infty}^0{[\int_{-\infty}^{xz}{f_{XY}(x,y)dy}]}dx \\ &\stackrel{y=x\mu}{\rightarrow} F_Z(z)=\int_0^{\infty}{[\int_{-\infty}^{z}{xf_{XY}(x,x\mu)d\mu}]}dx+\int_{-\infty}^0{[\int_{z}^{\infty}{xf_{XY}(x,x\mu)d\mu}]}dx \\ &= \int_{-\infty}^{\infty}{[\int_{-\infty}^{z}{|x|f_{XY}(x,x\mu)d\mu}]}dx=\int_{-\infty}^z{[\int_{-\infty}^{\infty}{|x|f_{XY}(x,x\mu)dx}]}d\mu \end{aligned} \end{equation} \]

所以\(f_Z(z)=\int_{-\infty}^{\infty}{|x|f_{XY}(x,xz)dx}\),當\(X,Y\)相互獨立時,\(f_{XY}(x,y)=f_X(x)f_Y(y)\),所以此時\(f_Z(z)=\int_{-\infty}^{\infty}{|x|f_X(x)f_Y(xz)dx}\)​。

(3) \(Z=XY\)​的分布

\[\begin{equation} \begin{aligned} F_Z(z)&=P(Z \leq z)=P(XY \leq z)=\iint_{xy \leq z,x > 0} f_{XY}(x,y)\,dx\,dy+\iint_{xy \leq z,x < 0} f_{XY}(x,y)\,dx\,dy \\ &=\int_0^{\infty}{[\int_{-\infty}^{z/x}{f_{XY}(x,y)dy}]}dx+\int_{-\infty}^0{[\int_{z/x}^{\infty}{f_{XY}(x,y)dy}]}dx \\ &\stackrel{y=\mu/x}{\rightarrow} F_Z(z)=\int_0^{\infty}{[\int_{-\infty}^{z}{\frac{1}{x}f_{XY}(x,\mu/x)d\mu]}dx}+\int_{-\infty}^0{[\int_{-\infty}^{z}{-\frac{1}{x}f_{XY}(x,\mu/x)d\mu]}dx} \\ &= \int_{-\infty}^z{[\int_{-\infty}^{\infty}{\frac{1}{|x|}f_{XY}(x,\mu/x)dx]}d\mu} \end{aligned} \end{equation} \]

所以\(f_Z(z)=\int_{-\infty}^{\infty}{\frac{1}{|x|}f_{XY}(x,z/x)dx}\)​​,當\(X,Y\)​​相互獨立時,\(f_{XY}(x,y)=f_X(x)f_Y(y)\)​​,所以此時\(f_Z(z)=\int_{-\infty}^{\infty}{\frac{1}{|x|}f_X(x)f_Y(z/x)dx}\)​​。

除了上述常見的隨機變量函數的分布以外,復隨機信號的分布也是在實際問題中經常會遇到的內容,以下來推導幾個與復隨機信號相關的常見的分布。

1.設\(X \backsim N(\mu_x,\sigma_x^2)\)\(Y \backsim N(\mu_y,\sigma_y^2)\),且兩者相互獨立,\(Z=X+iY\),顯然根據上面1)的結論可知,\(Z\)也服從高斯分布,此時\(Z\)的PDF可以參考《正態分布

2.設\(X \backsim N(0,\sigma^2)\)​,\(Y \backsim N(0,\sigma^2)\)​,且兩者相互獨立,則\(Z=X^2+Y^2\)​服從指數分布,其PDF可通過下面的方法進行求解:

\[\begin{equation} \begin{aligned} f_X(x)&=\frac{1}{\sqrt{2\pi}\sigma}{\rm exp}(-\frac{x^2}{2\sigma^2})\\ f_Y(y)&=\frac{1}{\sqrt{2\pi}\sigma}{\rm exp}(-\frac{y^2}{2\sigma^2}),\rightarrow f_{XY}(x,y)=f_X(x)f_Y(y)=\frac{1}{2\pi\sigma^2}{\rm exp}(-\frac{x^2+y^2}{2\sigma^2})\\ F_Z(z)&=P(Z \leq z)=P(X^2+Y^2 \leq z)=\iint_{x^2+y^2 \leq z} f_{XY}(x,y)\,dx\,dy=\int_0^{2\pi}{[\int_0^{\sqrt{z}}{f_{XY}(\rho cos\theta,\rho sin\theta)\rho d\rho}]d\theta} \\ &=\frac{1}{2\pi\sigma^2}\int_0^{2\pi}{[\int_0^{\sqrt{z}}{{\rm exp}(-\frac{\rho^2}{2\sigma^2})\rho d\rho}]d\theta}=\frac{1}{2\pi\sigma^2}\int_0^{2\pi}{d\theta}\int_0^{\sqrt{z}}{{\rm exp}(-\frac{\rho^2}{2\sigma^2})d\rho^2}=1-{\rm exp}(-\frac{z}{2\sigma^2}) \end{aligned} \end{equation} \]

所以 \(f_Z(z)=F_Z^{'}(z)=\frac{1}{2\sigma^2}{\rm exp}(-\frac{z}{2\sigma^2})\)​。

3.設\(X \backsim N(0,\sigma^2)\)​,\(Y \backsim N(0,\sigma^2)\)​,且兩者相互獨立,則\(Z=\sqrt{X^2+Y^2}\)​服從瑞利分布,其PDF可通過下面的方法進行求解:

\[\begin{equation} \begin{aligned} f_X(x)&=\frac{1}{\sqrt{2\pi}\sigma}{\rm exp}(-\frac{x^2}{2\sigma^2})\\ f_Y(y)&=\frac{1}{\sqrt{2\pi}\sigma}{\rm exp}(-\frac{y^2}{2\sigma^2}),\rightarrow f_{XY}(x,y)=f_X(x)f_Y(y)=\frac{1}{2\pi\sigma^2}{\rm exp}(-\frac{x^2+y^2}{2\sigma^2})\\ F_Z(z)&=P(Z \leq z)=P(\sqrt{X^2+Y^2} \leq z)=\iint_{\sqrt{x^2+y^2} \leq z} f_{XY}(x,y)\,dx\,dy=\int_0^{2\pi}{[\int_0^z{f_{XY}(\rho cos\theta,\rho sin\theta)\rho d\rho}]d\theta} \\ &=\frac{1}{2\pi\sigma^2}\int_0^{2\pi}{[\int_0^z{{\rm exp}(-\frac{\rho^2}{2\sigma^2})\rho d\rho}]d\theta}=\frac{1}{2\pi\sigma^2}\int_0^{2\pi}{d\theta}\int_0^z{{\rm exp}(-\frac{\rho^2}{2\sigma^2})d\rho^2}=1-{\rm exp}(-\frac{z^2}{2\sigma^2}) \end{aligned} \end{equation} \]

所以 \(f_Z(z)=F_Z^{'}(z)=\frac{z}{\sigma^2}{\rm exp}(-\frac{z^2}{2\sigma^2})\)​​​

下面對上述復高斯變量的幅度和功率的分布進行仿真驗證,仿真代碼如下:

mu=0;sigma=4;                                       %高斯分布的均值和方差
x=sigma*randn(100000,1)+mu;                         %實部的值
y=4*randn(100000,1)+mu;                             %虛部的值
z1=sqrt(x.^2+y.^2);                                 %模值
z2=x.^2+y.^2;                                       %功率值

s=-20:0.1:20;
x_=exp(-(s-mu).^2./(2*sigma^2))./(sigma*sqrt(2*pi));%理論高斯分布概率密度函數
y_=exp(-(s-mu).^2./(2*sigma^2))./(sigma*sqrt(2*pi));%理論高斯分布概率密度函數
s1=0:0.1:20;
z1_=s1/sigma^2.*exp(-s1.^2/(2*sigma^2));              %理論瑞利分布概率密度函數
s2=0:0.1:400;
z2_=1/(2*sigma^2).*exp(-s2/(2*sigma^2));             %理論指數分布概率密度函數

histogram(x,'Normalization','pdf','NumBins',40);
hold on;
plot(s,x_,'LineWidth',1.5);xlabel('實部樣本值');ylabel('概率');axis tight;

figure;
histogram(y,'Normalization','pdf','NumBins',40);
hold on;
plot(s,y_,'LineWidth',1.5);xlabel('實部樣本值');ylabel('概率');axis tight;

figure;
histogram(z1,'Normalization','pdf','NumBins',40);
hold on;
plot(s1,z1_,'LineWidth',1.5);xlabel('幅值');ylabel('概率');axis tight;

figure;
histogram(z2,'Normalization','pdf','NumBins',40);
hold on;
plot(s2,z2_,'LineWidth',1.5);xlabel('功率值');ylabel('概率');axis tight;

運行結果如下:

(a) 實部分布圖 (b) 虛部分布圖
(c) 幅度分布圖 (d) 功率分布圖
圖2 復高斯隨機變量分布仿真驗證結果

隨機樣本\(X\)的常用統計分布:

(1)正態分布
其概率密度函數可以表示為:

\[X \backsim N(\mu,\sigma^2):f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}{\rm exp}[\frac{-(x-\mu)^2}{2\sigma^2}] \tag{6} \]

其中\(\mu\)\(\sigma^2\)分別表示均值和方差,當\(\mu=0\)\(\sigma^2=1\)​時,服從標准正態分布,其概率密度函數可以表示為:

\[X \backsim N(0,1):f(x)=\frac{1}{\sqrt{2\pi}}{\rm exp}(\frac{-x^2}{2}) \tag{7} \]

圖3 高斯分布示意圖(利用matlab normpdf函數繪制)
*(2)$\chi^2$分布* 設$X_1$,$X_2$,...,$X_n$是來自總體$N(0,1)$​​的樣本,則稱統計量 $$ X=X_1^2+X_2^2+...+X_n^2 \tag{8} $$ 服從自由度為$n$​的$\chi^2$​分布,記為$X \backsim \chi^2(n)$​,其中自由度表示$(3)$​中獨立變量的個數,$\chi^2(n)$​​的概率密度函數為 $$ X \backsim \chi^2(n):f(n)= \begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2}, & \text {$x>0$} \\ 0, & \text{other} \end{cases} \tag{9} $$ $\chi^2(n)$分布的均值和方差分別為:${\rm E}[X]=n$,${\rm D}[X]=2n$。
圖4 卡方分布示意圖(利用matlab chi2pdf函數繪制)
*(3)t分布* 設$X \backsim N(0,1)$​,$Y \backsim \chi^2(n)$​,且$X$​,$Y$​​​相互獨立,則稱隨機變量 $$ t=\frac{X}{\sqrt{Y/n}} \tag{10} $$ 服從自由度為$n$的t分布,記為$t \backsim t(n)$​,其概率密度函數可以表示為: $$ t \backsim t(n): f(t)=\frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2} \tag{11} $$
圖5 t分布示意圖(利用matlab tpdf函數繪制)
*(4)F分布* 設$U \backsim \chi^2(n_1)$​,$V \backsim \chi^2(n_2)$​,且$U$​,$V$​​​相互獨立,則稱隨機變量 $$ X=\frac{U/n_1}{V/n_2} \tag{12} $$ 服從自由度為$(n_1,n_2)$​的F分布,記為$X \backsim F(n_1,n_2)$​​,其概率密度函數可以表示為: $$ X \backsim F(n_1,n_2): f(x)= \begin{cases} \frac{\Gamma[(n_1+n_2)/2] (n_1/n_2)^{n_1/2} x^{n_1/2-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1 x/n_2)]^{(n_1+n_2)/2}}, & \text {$x>0$} \\ 0, & \text{other} \end{cases} \tag{13} $$
圖6 F分布示意圖(利用matlab fpdf函數繪制)

關於上述分布的其他信息可以參考數理統計四大分布---正態分布、卡方分布、學生t分布和F分布



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM