先引入兩個問題
問題1:一賭徒,下賭本$n$元,賭博成功的概率為$p$此時贏得獎金為$m(m>n)$元,要不要試一試手?
問題2:小紅與小明是班級中的佼佼者,考試的平均成績相同,問派隨代表學校參加競賽比較公平?
如果我們知道隨機變量的概率分布,那么關於隨機變量的所有信息我們都可以得到,然而很多時候得到概率分布是不容易的而且沒有必要,退而求其次我們需要刻畫隨機變量的一些特征。為解決問題1提出來數學期望(expectation)的概念,為解決問題2提出方差概念。
定義:
期望(expectation):設隨機變量$X$取值為$x_{1},x_{2},\cdots,x_{n},\cdots$的概率為$p_{1},p_{2},\cdots,p_{n},\cdots$.
\[E(X)=\sum x_{i}p_{i}\]
連續型隨機變量$X\sim f(x)$
\[E(X)=\int_{-\infty}^{+\infty}xf(x)dx\]
期望是隨機變量的特征刻畫,關於級數收斂應該為排項次序無關,故應當絕對收斂,積分也應當是絕對收斂。從期望的定義可以看出期望實際是一種加權平均值。一般的算術平均可以看做是期望的一種特殊情況,設隨機變量取值$x_{1},x_{2},\cdots,x_{n}$的概率為$\frac{1}{n}$
\[E(X)=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}\]
現在來看問題1,把贏得錢數為隨機變量
\[E(X)=-(1-p)n+pm\]
當$m\geq \frac{1-p}{p}n$時,$E(X)\geq 0$.還是值得玩一玩的。當然關於這個$p$的值是多少?多多少少有一點主觀的成分在里面。
有了期望的定義,我們就可以計算(二)中的各個分布的數學期望。
期望的性質:
(1) 隨機變量的和的期望等於各隨機變量期望之和
\[E(X+Y)=E(X)+E(Y)\]
Proof:
先看離散的情況
\begin{align*} E(X+Y)&=\sum_{i,j} (x_{i}+y_{j})p_{ij}\\ &=\sum_{i} x_{i}\sum_{j}p_{ij}+\sum_{j}y_{j}\sum_{i}p_{ij}\\ &=E(X)+E(Y) \end{align*}
連續的情況類似
\[E(X+Y)=\int\int (x+y)f(x,y)dxdy=E(X)+E(Y)\]
問題:對無窮多個隨機變量上面的等式還成立嗎?(理論上探索可能有意義,而實際過程中隨機變量的個數總是有限多個,此處欠妥)
(2)隨機變量的常數倍
\[E(aX)=aE(X)\]
(3) 若$X\sim f(x)$,導出的新隨機變量$Y=g(X)$
\[E(Y)=\int_{-\infty}^{+\infty}g(x)f(x)dx\]
(4) 若隨機變量$X,Y$獨立
\[E(XY)=E(X)E(Y)\]
更進一步,$g(X)$和$h(Y)$相互獨立
\[E(g(X)h(Y))=E(g(X))E(h(Y))\]
(5) 對於多維隨機變量$(X,Y)\sim f(x,y)$
$X$的邊緣密度函數
\[f(x)=\int_{-\infty}^{+\infty}f(x,y)dy\]
因此
\[E(X)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)dxdy\]
$Y$的邊緣密度函數
\[g(y)=\int_{-\infty}^{+\infty}f(x,y)dx\]
此時
\[E(Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}yf(x,y)dxdy\]
回憶(一)中的條件概率公式
\[P(B|A)=\frac{P(AB)}{P(A)}\]
則
\[P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}\]
即
\[f(y|x)=\frac{f(x,y)}{\int_{-\infty}^{+\infty}f(x,y)dy}\]
定義條件期望($Y$對$X$的回歸函數)
\[E(Y|x)=\int_{-\infty}^{+\infty}yf(y|x)dy\]
整理一下
\[E(Y|x)=\frac{1}{f(x)}\int_{-\infty}^{+\infty}yf(x,y)dy\]
Remark:在此式中可能涉及分母為0的情況,可用極限處理。
從而我們得到了條件期望與期望的關系
\[E(Y)=\int_{-\infty}^{+\infty}E(Y|x)f(x)dx\]
方差(variance):方差是衡量在期望$\mu=E(X)$(均值)附近震盪程度的量可用下式計算
\[Var(X)=E(X-\mu)^{2}\]
一個等價的公式是
\[Var(X)=E(X^{2})-E^{2}(X)\]
方差的性質:
(1) $Var(X)\geq 0$,$Var(c)=0$,指常數沒有震盪。
(2) $Var(cX)=c^{2}Var(X)$ 此公式提供了改善震盪的一個方法那就是將隨機變量取值進行伸縮。
(3) $Var(X+c)=Var(X)$,對所有隨進變量取值進行平移不改變震盪程度。
(4) 獨立的隨機變量之和的方差等於方差的和(Remark:均值的這個性質不要求隨機變量獨立)
\[Var(X+Y)=Var(X)+Var(Y)\]
Proof:
\[Var(X+Y)=E(X^{2}+Y^{2}+2XY)-E^{2}(X)-E^{2}(Y)-2E(X)E(Y)\]
因為$X,Y$互相獨立
\[E(XY)=E(X)E(Y)\]
帶入上式便得
\[Var(X+Y)=Var(X)+Var(Y)\]
從證明過程看獨立條件必不可少。由於方差是由期望定義的,所以方差的一切性質可由期望導出,可見期望的概念要比方差重要。
中位數:另一個日后可能用到的概念
\[F(m)=P(X\leq m)=\frac{1}{2}\]
稱m為分布$F$的中位數或者$X$的中位數。類似有眾數等。
矩:是期望和方差的推廣,是很重要的概念。
\[E(X^{k})=\int_{-\infty}^{+\infty}x^{k}f(x)dx\]
稱為隨機變量$X$的$k$階原點矩。
\[E(X-\mu)^{k}=\int_{-\infty}^{+\infty}(x-\mu)^{k}f(x)dx\]
稱為隨機變量$X$的$k$階中心矩。
由任意階矩的信息推測分布函數的信息是概率論的一個重要課題。一階原點矩表示期望,二階中心矩表示方差。更高階的矩也有一定的意義,三階中心矩(偏態)與偏度有關,四階中心矩(峰態)和峰度有關。
母函數:
\[G(z)=\sum z^{n}P(X=n)\]
稱$G(z)$為隨機變量$X$生成的母函數。
矩母函數:
\[ M_{X}(t)=E(e^{tX})=\int_{-\infty}^{+\infty}e^{tx}f(x)dx \]
對其求導便可得到隨機變量的所有矩。$\psi ^{(n)}(0)$
特征函數:
\[\psi_{X}(t)=E(e^{itX})=\int_{-\infty}^{+\infty}e^{itx}f(x)dx \]
函數的Laplace變換與Forier變換,后者尤其重要。
問題3:設身高$X$,體重$Y$,這兩個隨機變量有沒有相關性?
協方差與相關系數:
\[Cov(X,Y)=E[(X-\mu_{X})(Y-\mu_{Y})]\]
一個等價的公式
\[Cov(X,Y)=E(XY)-E(X)E(Y)\]
性質:
(1) 顯然 $Cov(X,X)=Var(X)$
(2) 若$X,Y$相互獨立,$Cov(X,Y)=0$.意義很明顯若$X,Y$獨立則他們不相關。(獨立的一個必要條件)
(3) 有不等式$[Cov(X,Y)]^{2}\leq Var(X)Var(Y)$.類似內積空間的$CSB$不等式,因此證明方法相同。
標准差:隨機變量$X$的標准差定義為方差的開方
\[\sigma=\sqrt{Var(X)}\]
相關系數:
\[\rho=\frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}}\]