概率密度函數和概率分布函數的基本概念:
隨機變量是指在任何時間點上,值都是不能完全確定的,最多只能知道它可能落在哪個區間上,那么怎樣去描述這個變量呢?只能通過概率。概率密度函數(Probability Density Function, PDF)和概率分布函數(又稱累積分布函數, Cumulative Distribution Function, CDF)分別從兩個不同的角度來描述隨機變量的概率。在說明PDF和CDF之前,首先來看一個統計問題,對於一組隨機數,通常可以利用直方圖來表示這組隨機數在各個區間上的分布情況,如下圖所示為隨機生成100000個高斯分布的樣本

顯然\(f(x) \geq 0\),且\(\int_{x_1}^{x_2} {f(x)dx}=1\),為了從數學上更好地表示\((1)\),我們定義了CDF,其定義方式如下:
從\((1)\)可以看出\(F(x)\)暗含着概率累積的概念,這也就是它為什么又叫做累積分布函數的原因,這通過離散型隨機變量的例子可以很容易理解,比如隨機變量\(X\)的取值是\(0 \backsim 5\)的整數,則\(F(3)=P(X \leq 3)=P(0)+P(1)+P(2)+P(3)\)。對比\((1)(2)\)兩式可得
\((3)\)給出了PDF和CDF之間的關系,除此之外,它們還有如下一些常用的性質:
- \(F(x)\)是一個不減函數,即\(F(x_2)-F(x_1)=P(x_1 < x \leq x_2) \geq 0\),其中\(x_1 < x_2\);
- \(0 \leq F(x) \leq 1\),且\(F(-\infty)=\lim_{x \to -\infty}{F(x)}=P(X < -\infty)=0\),\(F(\infty)=\lim_{x \to \infty}{F(x)}=P(X < \infty)=1\);
- \(F(x)=\int_{-\infty}^x{f(t)dt}\),\(F'(x)=f(x)\)。
顯然,當知道一個隨機變量的PDF或CDF之后,該隨機變量就能被很好描述了,所以確定隨機變量的PDF或CDF是隨機變量處理中的非常重要的一個內容。
PDF和CDF的更詳細的信息,可以參考相關資料,比如《概率分布函數、概率密度函數》
上面討論的都是一個隨機變量的情況,在實際情況中經常需要考慮多個隨機變量,下面以二維隨機變量為例進行簡單的說明。設\(X\),\(Y\)為兩個隨機變量,顯然它們各自都有對應的PDF和CDF,分別記為\(f_X(x),F_X(x)\)和\(f_Y(y),F_Y(y)\),同時這兩個隨機變量還共同組成一個PDF和CDF,記為\(f_{XY}(x,y),F_{XY}(x,y)\),則上面各個變量之間存在如下一些常用的基本的關系:
- \(F_{XY}(x,y)=P(X \leq x,Y \leq y)=\int_{-\infty}^y{\int_{-\infty}^x{f(\mu,\upsilon)d\mu d\upsilon}}\),\(F_{XY}(-\infty,\infty)=\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}{f(x,y)dx dy}}=1\);
- \(f_{XY}(x,y)=\frac{\partial^2 F_{XY}(x,y)}{\partial x \partial y}\)
- \(F_X(x)=F_{XY}(x,\infty),F_Y(y)=F_{XY}(\infty,y),f_X(x)=\int_{-\infty}^{\infty}{f_{XY}(x,y)dy},f_Y(y)=\int_{-\infty}^{\infty}{f_{XY}(x,y)dx}\)
需要注意的是各隨機變量之間可能是相關的,也就是彼此可能相互影響,所以綜合的PDF和CDF不僅與每個隨機變量各自的PDF和CDF有關,還和它們彼此之間的相關性有關。考慮一種最簡單的情況,即當所有隨機變量互相獨立時,此時可以得到以下常用的結論:
- \(P(X \leq x,Y \leq y)=P(X \leq x)P(Y \leq y),F_{XY}(x,y)=F_X(x)F_Y(y),f_{XY}(x,y)=f_X(x)f_Y(y)\)
更多多維隨機變量相關內容可以查閱資料,如《多維隨機變量》
隨機變量函數的概率密度函數和概率分布函數:
在實際應用中往往關注的不是某個隨機變量的分布特征,而是這個隨機變量某個函數的分布特征,比如在對復隨機信號進行處理時,我們往往並不會關注它的實部、虛部分別滿足什么樣的分布,而是更希望了解它的幅度或功率的分布情況。因此需要探究如何根據已知隨機變量的分布情況,求它的某個函數的分布情況,首先來考慮單個隨機變量的情況,設隨機變量\(X\)的PDF和CDF分別為\(f_X(x),F_X(x)\),\(Y=g(X)\)為隨機變量\(X\)的一個函數,現在需要求解\(Y\)的分布規律。求解方法如下:
上面的式子僅展示了一個基本的求解思路,並不嚴謹,基本的思路就是利用函數表達式\(Y=g(X)\),將\(X\)表示為\(Y\)的函數,即\(X=h(Y)\),這樣就能利用\(X\)的分布情況來求\(Y\)的分布情況,以下給出更嚴謹的定理:
設隨機變量\(X\)具有PDF\(f_X(x),-\infty < x < \infty\),又設函數\(g(x)\)處處可導且恆有\(g'(x)>0\)(或恆有\(g'(x)< 0\)),則\(Y=g(X)\)是連續型隨機變量,其概率密度函數為
其中\(\alpha=min[g(-\infty),g(\infty)],\beta=max[g(-\infty),g(\infty)]\),\(h(y)\)是\(g(x)\)的反函數。
上面給出了單個隨機變量的函數的PDF求解方法,對於多個隨機變量函數的PDF,可以按照類似的思路進行處理,但是因為涉及到多個變量,顯然求解的過程會復雜很多,一般也沒有一個通用的表達式,通常也只需要根據實際情況進行具體的求解,以下通過兩個隨機變量函數的PDF求解來展示一下基本的過程:
(1) \(Z=X+Y\)的分布
所以\(f_Z(z)=\int_{-\infty}^{\infty}{f_{XY}(z-y,y)dy}\),由於\(x,y\)在上面的式子中是完全對稱的,所以顯然有\(f_Z(z)=\int_{-\infty}^{\infty}{f_{XY}(x,z-x)dx}\),當\(X,Y\)相互獨立時,\(f_{XY}(x,y)=f_X(x)f_Y(y)\),所以此時\(f_Z(z)=\int_{-\infty}^{\infty}{f_X(z-y)f_Y(y)dy}\)或\(f_Z(z)=\int_{-\infty}^{\infty}{f_X(x)f_Y(z-x)dx}\),可以看出此時隨機變量\(Z\)的PDF是隨機變量\(X,Y\)的PDF的卷積。
由於兩個高斯函數的卷積仍然為高斯函數,因此根據上面的結論可得,兩個服從高斯分布的相互獨立的隨機變量的和仍然服從高斯分布,更具體地:
設\(X\),\(Y\)相互獨立且\(X \backsim N(\mu_x,\sigma_x^2)\),\(Y \backsim N(\mu_y,\sigma_y^2)\),則\(Z=X+Y\)仍然服從高斯分布,且\(Z \backsim N(\mu_x+\mu_y,\sigma_x^2+\sigma_y^2)\)。進一步地,有限個相互獨立的正態隨機變量的線性組合仍然服從正態分布,且若\(X_i \backsim N(\mu_i,\sigma_i^2),i=1,2,...,n\),\(Z=\sum_{i=1}^n{k_i X_i}\),則\(Z \backsim N(\sum_{i=1}^n{k_i \mu_i},\sum_{i=1}^n{k_i^2 \sigma_i^2})\)
(2) \(Z=Y/X\)的分布
所以\(f_Z(z)=\int_{-\infty}^{\infty}{|x|f_{XY}(x,xz)dx}\),當\(X,Y\)相互獨立時,\(f_{XY}(x,y)=f_X(x)f_Y(y)\),所以此時\(f_Z(z)=\int_{-\infty}^{\infty}{|x|f_X(x)f_Y(xz)dx}\)。
(3) \(Z=XY\)的分布
所以\(f_Z(z)=\int_{-\infty}^{\infty}{\frac{1}{|x|}f_{XY}(x,z/x)dx}\),當\(X,Y\)相互獨立時,\(f_{XY}(x,y)=f_X(x)f_Y(y)\),所以此時\(f_Z(z)=\int_{-\infty}^{\infty}{\frac{1}{|x|}f_X(x)f_Y(z/x)dx}\)。
除了上述常見的隨機變量函數的分布以外,復隨機信號的分布也是在實際問題中經常會遇到的內容,以下來推導幾個與復隨機信號相關的常見的分布。
1.設\(X \backsim N(\mu_x,\sigma_x^2)\),\(Y \backsim N(\mu_y,\sigma_y^2)\),且兩者相互獨立,\(Z=X+iY\),顯然根據上面1)的結論可知,\(Z\)也服從高斯分布,此時\(Z\)的PDF可以參考《正態分布》
2.設\(X \backsim N(0,\sigma^2)\),\(Y \backsim N(0,\sigma^2)\),且兩者相互獨立,則\(Z=X^2+Y^2\)服從指數分布,其PDF可通過下面的方法進行求解:
所以 \(f_Z(z)=F_Z^{'}(z)=\frac{1}{2\sigma^2}{\rm exp}(-\frac{z}{2\sigma^2})\)。
3.設\(X \backsim N(0,\sigma^2)\),\(Y \backsim N(0,\sigma^2)\),且兩者相互獨立,則\(Z=\sqrt{X^2+Y^2}\)服從瑞利分布,其PDF可通過下面的方法進行求解:
所以 \(f_Z(z)=F_Z^{'}(z)=\frac{z}{\sigma^2}{\rm exp}(-\frac{z^2}{2\sigma^2})\)
下面對上述復高斯變量的幅度和功率的分布進行仿真驗證,仿真代碼如下:
mu=0;sigma=4; %高斯分布的均值和方差
x=sigma*randn(100000,1)+mu; %實部的值
y=4*randn(100000,1)+mu; %虛部的值
z1=sqrt(x.^2+y.^2); %模值
z2=x.^2+y.^2; %功率值
s=-20:0.1:20;
x_=exp(-(s-mu).^2./(2*sigma^2))./(sigma*sqrt(2*pi));%理論高斯分布概率密度函數
y_=exp(-(s-mu).^2./(2*sigma^2))./(sigma*sqrt(2*pi));%理論高斯分布概率密度函數
s1=0:0.1:20;
z1_=s1/sigma^2.*exp(-s1.^2/(2*sigma^2)); %理論瑞利分布概率密度函數
s2=0:0.1:400;
z2_=1/(2*sigma^2).*exp(-s2/(2*sigma^2)); %理論指數分布概率密度函數
histogram(x,'Normalization','pdf','NumBins',40);
hold on;
plot(s,x_,'LineWidth',1.5);xlabel('實部樣本值');ylabel('概率');axis tight;
figure;
histogram(y,'Normalization','pdf','NumBins',40);
hold on;
plot(s,y_,'LineWidth',1.5);xlabel('實部樣本值');ylabel('概率');axis tight;
figure;
histogram(z1,'Normalization','pdf','NumBins',40);
hold on;
plot(s1,z1_,'LineWidth',1.5);xlabel('幅值');ylabel('概率');axis tight;
figure;
histogram(z2,'Normalization','pdf','NumBins',40);
hold on;
plot(s2,z2_,'LineWidth',1.5);xlabel('功率值');ylabel('概率');axis tight;
運行結果如下:




隨機樣本\(X\)的常用統計分布:
(1)正態分布
其概率密度函數可以表示為:
其中\(\mu\),\(\sigma^2\)分別表示均值和方差,當\(\mu=0\),\(\sigma^2=1\)時,服從標准正態分布,其概率密度函數可以表示為:




關於上述分布的其他信息可以參考數理統計四大分布---正態分布、卡方分布、學生t分布和F分布