次序統計量的概率密度函數
首先給出次序統計量的概念:
設\(X_1,...,X_n\)是從總體中抽樣得到的樣本,將其按從小到大的順序進行排列,得到一組有序的樣本值\(X_{(1)},...,X_{(n)}\),其中\(X_{(1)} \leq X_{(2)} \leq ... \leq X_{(n)}\),則\(X_{(k)}\)為其中單個次序統計量。以下采用兩種方法推導\(X_{(k)}\)的概率密度函數。
(1)基於分布函數的推導思路
根據分布函數的定義有\(F_{X_{(k)}}(x)=P(X_{(k)} \leq x)\),即次序統計量\(X_{(k)}\)的分布函數為事件\(X_{(k)}\)小於等於\(x\)的概率,由於\([X_{(1)},...,X_{(k)},...,X_{(n)}]\)是一個有序樣本序列,因此,下列子事件均能引起事件\(X_{(k)} \leq x\)的發生:
有\(k\)個\(X_{(i)}\)的值不大於\(x\); 有\(k+1\)個\(X_{(i)}\)的值不大於\(x\);...... 有\(n\)個\(X_{(i)}\)的值不大於\(x\)
所以:
\[\begin{equation} \begin{aligned} F_{X_{(k)}}(x)&=P(X_{(k)} \leq x)=\sum_{i=k}^n{[有i個X_{(i)}不大於x]}=\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} [F(x)]^i [1-F(x)]^{n-i}} \end{aligned} \end{equation}\tag{1} \]
在上面的表達式中,\(F(x)\)表示總體樣本的分布函數,則次序統計量\(X_{(k)}\)的概率密度函數可以通過對(1)進行求導得到,在化簡過程中用到了以下等式關系:
\[\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} P^i (1-P)^{n-i}}=k \begin{pmatrix} n \\ k \end{pmatrix} \int_0^P{t^{k-1}(1-t)^{n-k}dt}\tag{2} \]
現在來證明(2)式,將等式左右兩邊對\(P\)求導,對右邊求導得到
\[\frac{d[k \begin{pmatrix} n \\ k \end{pmatrix} \int_0^P{t^{k-1}(1-t)^{n-k}dt}]}{dP}=k \begin{pmatrix} n \\ k \end{pmatrix} P^{k-1}(1-P)^{n-k}\tag{3} \]
對左邊等式求導得到:
\[\begin{equation} \begin{aligned} &\frac{d[\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} P^i (1-P)^{n-i}}]}{dP}=\sum_{i=k}^n{\begin{pmatrix} n \\ i \end{pmatrix} [i P^{i-1}(1-P)^{n-i}-(n-i)P^i (1-P)^{n-i-1}]}\\ &=k \begin{pmatrix} n \\ k \end{pmatrix} P^{k-1}(1-P)^{n-k}-(n-k)\begin{pmatrix} n \\ k \end{pmatrix} P^k (1-P)^{n-k-1}\\ &+(k+1)\begin{pmatrix} n \\ k+1 \end{pmatrix} P^k (1-P)^{n-k-1}-(n-k-1)\begin{pmatrix} n \\ k+1 \end{pmatrix}P^{k+1}(1-P)^{n-k-2}+...\\ &=\frac{n!}{(k-1)!(n-k)!}P^{k-1}(1-P)^{n-k}{-\frac{n!}{k!(n-k-1)!}P^k (1-P)^{n-k-1}}\\ &{+\frac{n!}{k!(n-k-1)!}P^k(1-P)^{n-k-1}}-\frac{n!}{(k+1)!(n-k-2)!}P^{k+1}(1-P)^{n-k-2}+...\\ &=\frac{n!}{(k-1)!(n-k)!}P^{k-1}(1-P)^{n-k}=k\begin{pmatrix} n \\ k \end{pmatrix} P^{k-1}(1-P)^{n-k} \end{aligned} \end{equation}\tag{4} \]
從(4)可以看出展開式前一項的后半部分和后一項的前半部分可以相消,所以最終僅保留第一項的前半部分和最后一項的后半部分,顯然得到(2)中左右兩個式子對\(P\)的導數是相等的。當然,導數相等並不能證明原函數就是相等的(原函數加減常數的導數仍然保持相等),只需要取一個\(P\)值代進去看左右兩端是否相等即可。顯然可以證明(2)是成立的。
利用(2)可以得到:
\[F_{X_{(k)}}(x)=k\begin{pmatrix} n \\ k \end{pmatrix} \int_0^{F(x)}{t^{k-1}(1-t)^{n-k}dt}\tag{5} \]
所以
\[f_{X_{(k)}}(x)=k\begin{pmatrix} n \\ k \end{pmatrix} [F(x)]^{k-1}[1-F(x)]^{n-k}f(x)\tag{6} \]
(2)基於概率密度元的推導方法
在推導之前我們先給出概率密度函數的一種計算方法
\[f(x)=\lim_{\Delta x \to 0}{\frac{P(x< X \leq x+\Delta x)}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{F(x+\Delta x)-F(x)}{\Delta x}}\tag{7} \]
由上面的定義可知
\[f_{X_{(k)}}(x)=\lim_{\Delta x \to 0}{\frac{P(x < X_{(k)} \leq x+\Delta x)}{\Delta x}}\tag{8} \]
事件\(x < X_{(k)} \leq x+\Delta x\),等價於:有\(k-1\)個樣本值小於\(x\),有一個樣本值在\(x\)和\(x+\Delta x\)之間,有\(n-k\)個樣本值大於\(x+\Delta x\)。上述三個子事件對應的情況數及概率分別可以表示為:\(\begin{pmatrix} n \\ k-1 \end{pmatrix}[F(x)]^{k-1},\begin{pmatrix} n-k+1 \\ 1 \end{pmatrix} [F(x+\Delta x)-F(x)],\begin{pmatrix} n-k \\ n-k \end{pmatrix}[1-F(x+\Delta x)]^{n-k}\),所以
\[P(x < X_{(k)} \leq x+\Delta x)=\begin{pmatrix} n \\ k-1 \end{pmatrix} \begin{pmatrix} n-k+1 \\ 1 \end{pmatrix} \begin{pmatrix} n-k \\ n-k \end{pmatrix} [F(x)]^{k-1} [F(x+\Delta x)-F(x)][1-F(x+\Delta x)]^{n-k}\tag{9} \]
所以
\[\begin{equation} \begin{aligned} f_{X_{(k)}}(x)&=\begin{pmatrix} n \\ k-1 \end{pmatrix} \begin{pmatrix} n-k+1 \\ 1 \end{pmatrix} \begin{pmatrix} n-k \\ n-k \end{pmatrix}[F(x)]^{k-1} \lim_{\Delta x \to 0}{\frac{[F(x+\Delta x)-F(x)][1-F(x+\Delta x)]^{n-k}}{\Delta x}}\\ &=k\begin{pmatrix} n \\ k \end{pmatrix} [F(x)]^{k-1} [1-F(x)]^{n-k} f(x) \end{aligned} \end{equation}\tag{10} \]