學生t-分布


學生t-分布(Student's t-distribution),可簡稱為t分布。

關於分布的早期理論工作,是英國統計學家威廉西利戈塞特(WillamSealy Gosset)在1900年進行的。

應用在估計呈正態分布的母群體之平均數。 t分布是小樣本分布,t分布適用於當總體標准差R未知時用樣本標准差s代替總體標准差R,由樣本平均數推斷總體平均數。它是對兩個樣本均值差異進行顯著性測試的學生t檢定的基礎。學生t檢定改進了Z檢定,因為Z檢定以母體標准差已知為前提。雖然在樣本數量大(超過30個)時,可以應用Z檢定來求得近似值,但Z檢定用在小樣本會產生很大的誤差,因此必須改用學生t檢定以求准確。

在母體標准差未知的情況下,不論樣本數量大或小皆可應用學生t檢定。在待比較的數據有三組以上時,因為誤差無法壓低,此時可以用變異數分析(ANOVA)代替學生t檢定。
 
假設X是呈正態分布的獨立的隨機變量(隨機變量的期望值\mu 方差\sigma )。 令:
\overline {{X_n}}  = ({X_1} + {X_2} + ... + {X_n})/n
 
為樣本均值。
{S_n} = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {({X_i}}  - \overline {{X_n}} {)^2}
 
為樣本方差的無偏估計量. V可以被定義為
X = (n - 1)\frac{{S_n^2}}{{{\sigma ^2}}}
其中有一個自由度為n − 1的卡方分布(由 Cochran定理得知),Z可以被定義為
U = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{\sigma }
 
 
Z呈正態分布並且均值和方差分別為0和1。它的樣本方差 \overline {{X_n}} 也是一個服從均值 μ和方差σ2/n的正態分布, 其中Z和V是相互獨立的
T \equiv \frac{U}{{\sqrt {X/n} }} = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{{{S_n}}}
T和Z不同的是實際的標准差σ被隨機變量Sn取代,我們注意到未知總體方差 σ2在T中沒有出現,因為分子和分母都有一個σ,所以他們抵消了。
 
 
聯合密度函數
因為Z,V是相互獨立的,所以它們的聯合密度函數為各自的密度函數的乘積。
(1)  Z
U\~\frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{u^2}}}{2}}}                (-∞ < u < +∞)
 
(2) V
X\~\frac{1}{{\Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}    (0 ≤ < +∞)
 
我們記 p(ux)為它們的聯合概率密度函數,然后有
p(u,x) = \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}   (1)
 
t分布的分布函數
令F(t)為T的累積分布函數,根據分布函數的定義,F(t)是T小於等於t的概率:
 F(t) = P\{ \frac{U}{{\sqrt {\frac{X}{n}} }} \le t\} = P\{ U \le \sqrt {\frac{X}{n}} .t\}
 
 
根據多變量分布函數的定義,這個概率等同於變量U和X在限制區域上的聯合概率密度函數 p ( u, x )的雙重積分,且積分區域為限制條件  u  ≤ ( x/n 1/2 t 下的區域,這個區域就是下圖藍色曲線以下的區域
 


F(t) = \int\limits_0^\infty {\int\limits_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {p(u,x)dudx} }
 
把(1)代入上式有
 
F(t) =   \int_0^\infty {\int_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {\frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
 
T的密度函數
這個復雜的積分無法寫成閉式的形式,幸運的是我們不需要算它的積分,我們只需要它對t的導數。那么先讓我們看看F(t)的結構
F(t)能夠被寫成如下形式:
g(t) = \sqrt {\frac{x}{n}.t}
 
F(t) = K.\int_0^\infty {[\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }
 
現在對F微分,我們便得到:
F'(t) = K.\int_0^\infty {[\frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }
 
令 
A = \frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du}
這個積分是關於t的函數,通過鏈式法則:
如果h(g(t))
\frac{{dh}}{{dt}} = \frac{{dh}}{{dg}}.\frac{{dg}}{{dt}}
 
A = h(g(t)).\frac{{dg}}{{dt}}
 
第一項為
h(u) = \frac{{{e^{ - \frac{{{u^2}}}{2}}}}}{{{2^{\frac{{n + 1}}{2}}}}}
 
我們將g(t)代入u得:
h(u) = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{\frac{{n + 1}}{2}}}}}
第二項是
\frac{{dg(t)}}{{dt}} = \sqrt {\frac{x}{n}}
 
最終得到:
A = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{(n + 1)/2}}}}.\sqrt {\frac{x}{n}}
 
將這幾項相結合便得到:
{f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}\int_0^\infty {\frac{{{x^{(n + 1)/2 - 1}}{e^{ - \frac{x}{2}(1 + \frac{t}{n})}}}}{{{2^{(n + 1)/2}}}}dx}
再令y = (1 + t²/n)x
dx = \frac{1}{{1 + \frac{{{t^2}}}{n}}}dy
 
然后我們得到
{f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[\frac{1}{{{{(1 + \frac{{{t^2}}}{n})}^{(n + 1)/2}}}}]\int_0^\infty {\frac{{{y^{(n + 1)/2 - 1}}{e^{ - \frac{y}{2}}}}}{{{2^{(n + 1)/2}}}}dy}
 
積分項正好是Gamma函數\Gamma (\frac{{n + 1}}{2})
 
合並入整個式子得到t的分布函數,並且自由度是n:
{f_n}(t) = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]
下面是幾種特殊的情況:
n = 1, 柯西分布
 
f(t) = \frac{1}{{\pi (1 + {t^2})}}
 
n=2
f(t) = \frac{1}{{{{\left( {2 + {t^2}} \right)}^{\frac{3}{2}}}}}
n=3
f(t) = \frac{{6\sqrt 3 }}{{\pi {{\left( {3 + {t^2}} \right)}^2}}}
關於n = ∞,下面要進行詳細的解釋:
函數項
[{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]
當n趨向於無窮時,{{t^2}/n}為無窮小項,而對於log(1 + x)的taylor展開有:
log\left( {1{\rm{ }} + x} \right) = x - \frac{{{x^2}}}{2} + \frac{{{x^3}}}{3} - ... = \sum\limits_{i = 1}^\infty {{{( - 1)}^{i - 1}}\frac{{{x^i}}}{i}}
 
log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}]= \frac{{n + 1}}{2}\log (1{\rm{ }} + \frac{{{x^2}}}{n}) = \frac{{n + 1}}{2}.(\frac{{{x^2}}}{n} - \frac{{{x^4}}}{{2{n^2}}} - ...)
 
{\lim }\limits_{n \to \infty } log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}] = {\lim }\limits_{n \to \infty } \frac{{(n + 1){x^2}}}{{2n}} = \frac{{{x^2}}}{2}
 
所以
{\lim }\limits_{n \to \infty } \frac{1}{{{{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)}^{\frac{{n + 1}}{2}}}}} = {e^{ - \frac{{{x^2}}}{2}}}
 
現在再回頭看看t分布的系數。
情況1: n為偶數,設n = 2p;
{C_{2p}} = \frac{1}{{\sqrt {2p} }}.\frac{{(2p)!p}}{{({2^{2p}}){{(p!)}^2}}}
 
根據Stirling公式: n! ~ n n e- n(2πn1/2 
(2p )! ~ (2p)2pe -2p(2π.2p1/2
(p !)² ~ (p p )2(e-p2.2π p
將此代入到C2 p
{\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}
 
情況2: n為奇數,設n = 2p+1;
{C_{2p}} = \frac{1}{{\sqrt {2p + 1} }}.\frac{{({2^{2p}}){{(p!)}^2}}}{{(2p)!\pi }}
 
(2p )! ~ (2p2pe - 2p (2π.2p1/2
(p !)² ~ (p p )2e-p2.2π p
 
將此代入到C2 p
{\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}
 
所以,當n趨向於無窮時有:
{\lim }\limits_{n \to \infty } f(x) = \frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{x^2}}}{2}}}
方差的求解:
方法一:直接方法
E[{X^2}] = \int\limits_{ - \infty }^\infty {{x^2}p(x)dx = {C_n}\int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} } dx
其中
{C_n} = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}
 
{I_n} = \int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx
 
{I_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx - \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx = {J_n} - {K_n}
其中
 
{J_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx{K_n} = \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx
 
 
首先計算{J_n}
令 x²/ n = tan²θ
{J_n} = n\sqrt n \int\limits_0^{\pi /2} {\frac{1}{{{{(1 + {{\tan }^2})}^{(n - 1)/2}}}}} .\frac{1}{{\cos \theta }}d\theta
= {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {\frac{{{{({{\cos }^2}\theta )}^{(n - 1)/2}}}}{{{{\cos }^2}\theta }}} d\theta = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 3}}(\theta )} d\theta
 
同樣算得:
{K_n} = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 1}}(\theta )} d\theta
這種類型的積分叫做Wallis積分。
現在讓我們計算它的通用表達方式:

{W_n} = \int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta
 
= \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} {\cos ^2}(\theta )d\theta = \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} [1 - {\sin ^2}(\theta )]d\theta
= \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} d\theta - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
= {W_{n - 2}} - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
 
再令
u' = cos n - 2 (θ)sin(θ)
v = sin( θ)
利用下式:
\int\limits_0^{\pi /2} {u'v} d\theta = [uv]_0^{\pi /2} - \int\limits_0^{\pi /2} {uv'} d\theta 有


\int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
= [ - \frac{{{{\cos }^{n - 1}}(\theta )sin(\theta )}}{{n - 1}}]_0^{\pi /2} + \frac{1}{{n - 1}}\int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta
= 0 + {W_n}/(n - 1)
 
因此可以得到Wn = Wn - 2  +  Wn / (n - 1)
Wallis積分是一個遞歸表達式,n為偶數或者奇數時分別取不同的結果
當n為偶數時
{W_{2p}} = \frac{{(2p)!}}{{{2^{2p}}{{(p!)}^2}}}.\frac{\pi }{2}
當n為奇數時
{W_{2p - 1}} = \frac{{{2^{2p}}{{(p!)}^2}}}{{2p(2p!)}}
 
由於Var( Tn ) = C n I n, 分別將n和 n代入式中,最終得到的方差為
Var({T_n}) = \frac{n}{{n - 2}}
方法二: LOTUS
根據定義
E[Z] = \int {\int {f(u,x)p(u,x)dudx} }
 
Var({T_n}) = E[T_n^2]
= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {T_n^2{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}} \int_{ - \infty }^\infty {\int_0^\infty {{{(\frac{u}{{\sqrt {\frac{x}{n}} }})}^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
 
= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {{u^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{ - 1}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
= \frac{1}{{\Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\frac{1}{{\sqrt {2\pi } }}{u^2}{e^{ - \frac{{{u^2}}}{2}}}du\int_0^\infty {{x^{\frac{{n - 2}}{2} - 1}}{e^{ - \frac{x}{2}}}dx} }
 
x = 2y  然后得到dx = 2dy
\int_{ - \infty }^\infty {{{(\frac{y}{2})}^{\frac{{n - 2}}{2} - 1}}} {e^{ - y}}\frac{1}{2}dy = \frac{1}{{{2^{(n - 2)/2}}}}\int_0^\infty {{y^{\frac{{n - 2}}{2} - 1}}{e^{ - y}}dy} = \frac{1}{{{2^{(n - 2)/2}}}}\Gamma (\frac{n}{2} - 1)
 
 
\Gamma (\frac{n}{2} - 1) = \frac{1}{{n/2 - 1}}\Gamma (\frac{n}{2}) = \frac{2}{{n - 2}}\Gamma (\frac{n}{2})
 
Var({T_n}) = \frac{n}{{n - 2}}


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM