一. 基本概念
1.1 隨機試驗與隨機事件
-
隨機試驗:
- 相同條件可重復
- 結果不止一個
- 無法預測
-
事件:每種結果,隨機事件A、B、C.
-
基本事件: 相對於實驗目的不可再分.
-
復合事件: 由基本事件復合.
1.2 樣本空間
- 樣本空間: 所有基本事件復合, 記作 \(\Omega\).
- 樣本點: \(\Omega\)中的元素 \(\omega\).
以下兩種是非隨機\極端:
- 必然事件: 一定會發生的事件.
- 不可能事件: 一定不發生的事件.
- 無限可列個: 按某種規律排成一個序列.
1.3 事件間的關系
-
包含
-
交( 積 )
-
並( 和 )
-
差: \(A - B = A - AB\)
-
互不相容事件: \(A\) 與 \(B\)不同時發生
-
對立事件: $A + B = \Omega $ 且 $ AB = \phi$
與互不相容事件的不同:- 互不相容事件可以有多個, 對立事件只有兩個.
- 互不相容事件可以均不發生, 對立事件必定發生一個.
相關公式: \(A-B=A - AB=A\overline{B}\).
-
完備事件組:
\(A_1, A_2,A_3...A_n\) 兩兩不相容, 且 \(\bigcup_{i=1}^{n} A_i = \Omega\) -
運算律
(1) 交換律
(2) 結合律
(3) 分配律
(4) 對偶律:- \(\overline{A\cup{B}} = \overline{A}\cap \overline{{B}}\)
- \(\overline{A\cap{B}} = \overline{A}\cup \overline{{B}}\)
1.4 頻率與概率
1.4.1 頻率
1.4.2 概率: 發生的可能性大小: \(P(A)\)
- 性質:
- 規范性: \(P(\Omega) = 1\) , \(P(\phi) = 0\)
- 非負性: \(0 \leq P(A) \leq 1\)
- 可加性
1.5 事件概率
1.5.1 古典概型
\(P(A) = \frac{A的有利樣本點}{\Omega 中樣本總數}=\frac{A中基本事件數}{基本事件數}\)
- 性質:
- 有限可能
- 等可能
- 有限可加性: \(A_1, A_2,A_3...A_n\) 兩兩不相容,\(P(A_1+A_2+A_3...+A_n) = \sum_{i=1}^n {P(A_i)}\)
1.5.2 幾何概型
典型問題: 會面問題, 蒲豐投針
- 性質:
- 完全可加性:\(P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)\)
1.6 公理化
- 非負性: \(0 \leq P(E) \leq 1\)
- 規范性: \(P(\Omega) = 1\)
- 完全可加性: \(P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)\)
由這三條公理可以推出其他定理.
定理 1: \(P(\phi) = 0\)
證明:
定理 2:\(P(\overline{E}) = 1 - P(E)\)
證明:
定理 3: \(P(A\cup B) = P(A)+P(B)-P(AB)\)
證明:
補充: \(P(A+B+C) = P(A)+P(B)+P(C)-P(AB)-P(C)-P(BC)+P(ABC).\)
1.7 條件概率
1.7.1 條件概率
定義: 在樣本空間內, \(A\),\(B\) 兩個事件,$ P(B)>0$,在 \(B\) 已經發生的條件下 \(A\)
發生的概率, 記作 \(P(A|B)\).
公式: **$ P(A|B) = \frac{P(AB)}{P(B)} \(**. 乘法公式:\)P(AB) = P(A|B)P(B)$
性質:
- \(P(A|B)\leq 0\)
- \(P(\Omega|B) = 0\)
1.7.2 全概率公式
定理:\(A_1,A_2,A_3...A_n\) 是完備事件組(互不相容且並集為樣本空間),且\(P(A_i)>0\),則\(P(B)=\sum_{i=1}^nP(A_i)P(B|A_i)\)
典型問題: 各個廠家的產品各占多少,每個廠家的不合格率也不一樣,求總的不合格概率
1.7.3 貝葉斯公式
全概率公式是知道原因推結果,貝葉斯公式是知道結果推原因, 例子: 感冒和肺炎都有可能引起發燒,全概率公式是感冒情況下發燒概率和肺炎情況下發燒概率都已知情況下求總的發燒概率,而貝葉斯公式是已知發燒,求感冒或者肺炎的概率.
定理:
\(A_1,A_2,A_3...A_n\) 是完備事件組,\(P(A_i)>0,P(B)>0,則P(A_k|B)=\frac{P(A_k)P(B|A_k)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)}\)
- \(P(A_i)\):先驗概率,易算
- \(P(A_i|B)\):后驗概率,不易算(知道結果,求原因)
1.8 獨立性
定義:
事件 A 發生的概率不受事件 B 是否發生的影響.即: \(P(A|B) = P(A)\).
- 注意:\(\phi,\Omega\)與任意事件獨立.
定理 1:\(P(AB)=P(A)P(B)\), 則為獨立事件.
定理 2:
- \(A\)與\(B\)獨立, 則 \(A\)與\(\overline{B}\),\(\overline{A}\)與\(B\),\(\overline{A}\)與\(\overline{B}\)獨立
- \(P(A) = 0\)或者\(P(A)=1\),則\(A\)與任何事件獨立.
- 注意: 概率為零不一定是空集, 概率為1也不一定是全集,比如集合概率模型,落在數軸上某點概率為零,但仍然可以發生.
- \(E(X+Y)=E(X)+E(Y)\)
- \(D(X+Y)=D(X)+D(Y)\)
二. 隨機變量及其分布
2.1 隨機變量
將樣本空間 \(\Omega\) 中的每個元素 e 與實數對應起來.
- 定義:
設隨機試驗的樣本空間為 $ S = {e}.\space X = X(e) $ 是定義在樣本空間的實值單值函數. 稱 $ X = X(e) $ 為隨機變量.
2.2
2.2.1 離散型隨機變量及其分布律
-
離散型隨機變量定義:
- 有限個
- 無限可列個
-
滿足條件:
- \(p_k\geq0,k=1,2...\)
- \(\sum^n_{k=1}p_k=1\)
-
分布律:
\[P\{X = x_k\}=p_k,k=1,2···. \]也可以用表格:
\(X\) \(x_1\) \(x_2\) ... \(x_n\) ... \(p_k\) \(p_1\) \(p_2\) ... \(p_n\) ...
2.2.2 連續型隨機變量及其概率密度函數
- 定義:
對於非負可積函數\(f(x)\),有
- 滿足:
- \(f(x) \geq 0\)
- \(\int^{-\infty}_{\infty}f(x)dx = 1\)
- 取個別值概率為 0 , 則端點值有沒有無所謂.
2.3 分布函數(對離散 連續均成立)
-
定義:
\(F(x) = P(X \leq x)\),即 \(X\) 取值不超過 \(x\) 的概率,它是一個普通的實函數 -
性質:
-
$0\leq F(X) \leq 1, x \in (-\infty,+\infty) $
-
\(F(x)\) 不減, 即 \(x_1 < x_2 \rArr F(x_1)<F(x_2)\)
利用這個性質, 有:
\[ \begin{aligned} \lim_{x \rightarrow +\infty}F(x) = 1\\ \lim_{x \rightarrow -\infty}F(x) = 0\end{aligned} \]可以用來求參數
-
-
\(F(x)\)右連續,且至多有可列個間斷點 . 若為離散型, 則 \(F(x)\) 右連續, 若為連續性, 則 \(F(x)\) 不僅右連續, 還是連續的.
以下公式對離散型和連續性均有用:-
\(P\{X \leq a\} =F(a)\)
-
\(P\{X > a\} = 1-F(a)\)
-
\(P\{a<X \leq b\}= F(b)-F(a)\)
-
\(P\{X=a\}=F(a)-F(a-0)\) 此處的 0 意為無窮小
-
\(P\{a \leq X \leq b\} = F(b)-F(a-0)\)
-
\(P\{X<a\} = F(a=0)\)
-
\(P(X \geq a\} = 1-F(a-0)\)
-
2.3.1 離散型的分布函數
- 由概率求分布函數:
\(X\) | \(-2\) | \(0\) | \(1\) | \(3\) |
---|---|---|---|---|
\(P\) | \(\frac{1}{2}\) | \(\frac{1}{4}\) | \(\frac{1}{8}\) | \(\frac{1}{8}\) |
由圖可見,函數的每一段都是右連續的.
- 由分布函數求概率:
只需借助 \(P\{X=a\}=F(a)-F(a-0)\).
2.3.2 連續型的分布函數
\(F(x) = P\{X \leq x\}= \int_{-\infty}^{x}{f(x)}dx\)
兩邊同時求導可得\(F'(x)=f(x)\)
2.4 幾種分布
2.4.1 離散型的分布
1. 0-1分布
- 分布律
\(X\) | \(1\) | \(0\) |
---|---|---|
\(P\) | \(p\) | \(1-p\) |
- 特點:
- 只做一次
- 結果只有兩種: \(p\{x=k\}=p^k(1-p)^{1-k}\)
- 期望\(E(X)=p\)
- 方差\(D(X)=p-p^2\)
2. 幾何分布
\(A\)發生概率為 \(p\) 即\(P(A) = p\),第 \(k\) 次試驗首次發生, 則前 \(k-1\) 次沒有發生,
\(P\{X=k\}= (1-p)^{k-1}p\),\(X\)~\(G(p)\).
3. 二項分布
- \(P(A) =p\),\(n\)次試驗,發生 \(k\) 次的概率是 \(P\{X=k\}=C^k_np^k(1-p)^{n-k},k=1,2,3,...,n\),\(X\)~\(B(n,p)\)
- 期望\(E(X)=np\)
- 方差\(D(X)= np(1-p)\) 推導:因為每次試驗都是互相獨立的,所以將每次的都加起來
4. 泊松分布
- 公式: \(P\{X=k\}=\frac{\lambda^k}{k!}e^{- \lambda},k=0,1,2,3,...,\lambda>0,X\)~\(P(\lambda)\)
- 證明概率和為1:
\(泰勒:e^x=\sum_{k=0}^{\infty}\frac{x^k}{k!},\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}e^{- \lambda}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}=e^{-\lambda} \cdot e^\lambda=1.\) - 適用范圍:電台呼叫次數,公用設施(等車,搖號)
- 泊松分布近似二項分布:
- 適用范圍:\(n\) 較大,\(p\) 較小, \(np\) 適中的時候. 當 \(n\rightarrow+\infty 時,\lambda \rightarrow np\).
例題: 銀行有 1000 個賬戶,每戶存了 10 萬元. 每戶提 2 萬的概率是 0.006, 則銀行應至少准備多少現金,可以有 95% 的概率滿足用戶需求?
設有 \(X\) 名用戶來取錢,銀行要准備 \(x\) 萬元現金
\(\begin{aligned} \lambda =np=6\\ X\sim B(1000,0.006)\\ P\{2X \leq x\}\geq 0.95\\ 則 \sum_{k=0}^{\frac{x}{2}}\frac{6^k}{k!}e^{-6} \geq 0.95\\ \end{aligned} \)
查表即可求得 \(x/2 \geq 10\)
5. 超幾何分布
-
定義:一共有 \(N\) 個元素, \(N_1\) 個屬於第一類,\(N_2\) 個屬於第二類,取 \(n\) 個元素, \(X\) 代表這 \(n\) 個元素中屬於第一類的個數.
\[P\{X=k\}= \frac{C_{N_1}^kC_{N_2}^{n-k}}{C^n_N},k=0,1,2,....min\{n,N_1\} \] -
超幾何分布:不放回試驗. 但當 \(N\) 很大, \(n\) 很小的時候, 可近似視為放回抽樣, 此時可以用二項分布近似. 例子:
10000 粒種子, 發芽率 99%, 從中取出 10 粒, 有 k 粒發芽的概率:
\[P\{X=k\}=\frac{C_M^{k}C_{10000-M}^{10-k}}{C_{10000}^{10}}\approx C_{10}^k0.99^k0.01^{10-k } \]
2.4.2 連續型的分布
1. 均勻分布
- 密度函數滿足:
\[f(x)=\begin{cases} \frac{1}{b-a},a \leq x \leq b \\ 0, else\\ \end{cases}\]則 \(x\) 服從均勻分布,記作 \(x\sim \mathrm U[a,b]\)
2. 指數分布
- 密度函數滿足:
\[f(x) = \begin{cases} \frac{1}{\theta} e^{-\frac{1}{\theta} x},x \gt 0\\ 0, x \leq 0\\ \end{cases}\]其中 \(\theta>0\) 時, \(X \sim \mathrm {Exp}(\theta)\)
- 無記憶性: 舉例說明: 已經買了 10 年的燈泡還能再用 1 年的概率與剛剛買的燈泡能再用一年的概率相等.
\[P\{X>s+t|X>s\} = P\{X>t\} \]直接按定義求積分可以證明.
3. 正態分布
-
密度函數:$$\displaystyle \phi(x) = \frac{1}{\sqrt{2\pi}\sigma}e{-\frac{(x-\mu)2}{2\sigma^2}},-\infty< x <+\infty$$ 記作 \(X \sim N(\mu,\sigma^2).\)
由\(\displaystyle \int_{-\infty}^{+\infty}e^{-x^2}dx=\sqrt{\pi}\) 可以證明\(\displaystyle \int_{-\infty}^{+\infty}\phi(x)dx = 1.\)
-
分布函數:
\[\Phi(x)=\frac{1}{\sqrt{2\pi\sigma}}\int_{-\infty}^{x}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \] -
性質:
-
\(y=\phi(x)\) 是以 \(x=\mu\) 為對稱軸的鍾形曲線. \(x = \mu\)時, \(\phi(x)\) 最大值\(\frac{1}{\sqrt{2\pi}\sigma}.\)
-
\(y=\phi(x)\) 以 \(x\) 軸為漸近線. \(x=\mu\plusmn\sigma\) 為拐點\(.\)
-
\(\sigma\) 固定,\(\mu\) 變化, 圖像左右移動;
\(\mu\) 固定,\(\sigma\) 變化, 圖像最高點變化.
-
-
標准正態分布
- \(\mu=0,\sigma=1.\)
- 性質:
- 以 \(y\)軸為對稱軸. 偶函數
- \(\Phi_0(-x)=1-\Phi_0(x).\)
-
舉例: 身高體重,受多種因素影響,且每種因素影響都不大.
-
將一般的正態分布化為標准正態分布:
\[\begin{aligned} \phi(x)&=\frac{1}{\sigma}\phi_0(\frac{x-\mu}{\sigma})\\ \Phi(x)&=\Phi_0(\frac{x-\mu}{\sigma})\\ \end{aligned} \]做題時可以直接修改要求的 \(X\) ,如:
\(\mu=1,\sigma=2,\)則\(P\{-2 \leq X \leq 2\}=P\{\frac{-2-1}{2}\leq \frac{X-1}{2} \leq\frac{2-1}{2}\}=\Phi_0(0.5)-\Phi_0(1.5)\) -
3 \(\sigma\) 准則
\(P\{|X-\mu|<\sigma\} =0.6826\)\(P\{|X-\mu|<2\sigma\} =0.9545\)
\(P\{|X-\mu|<3\sigma\} = 0.9973.\)
-
\(X\sim N(0,1)\),給定 \(α(0<α<1)\),找出 \(v_α\) 使得\(p\{X>v_α\}=α,v_\alpha\)叫做上\(\alpha\) 分位數.
2.5 隨機變量的函數的分布
2.5.1 離散型
-
已知 \(X\) 服從某分布,求關於 \(X\) 的函數 \(Y\) 的分布.
-
例子:
\(X\) -1 0 1 2 \(p_k\) 0.2 0.3 0.1 0.4 則 \(Y=(x-1)^2\) 的分布律為:
\(Y\) 0 1 4 \(p_k\) 0.1 0.7 0.2
2.5.2 連續型
-
隨機變量 \(X\) 具有密度函數 \(f_x(x)\) ,求\(Y=g(X)\)的密度函數.
-
步驟:
- \(F_Y(x)\rightarrow F_x(x)\),注意 \(F_Y(x) = p\{Y \leq x\},F_X(x) = p\{X \leq x\}\)
- 兩側同時求導:\(f_Y(x) \leftarrow f_X(x)\)
-
例子 1:
\(X\) 概率密度為 \(f_X(x)\),求 \(Y=3X+2\) 的概率密度.解:
\(\begin{aligned} F_Y(x) &= P\{Y \leq x\}\\ &=P\{3X+2 \leq x\}\\ &=P\{X \leq \frac{x-2}{3}\}\\ &=F_X(\frac{x-2}{3})\\ 兩邊同時求導:\\ f_Y(x)&=\frac{1}{3}f_X(\frac{x-2}{3})\\ \end{aligned} \) -
例子 2:
\(X\sim N(\mu,\sigma^2),Y=X^2,求Y\)的密度函數.
按照上面方法,最后積分即可
\(Y\) 服從卡方分布 -
定理
-
\(X\) 服從 \((a,b)\) 內的均勻分布, 則 \(Y=kX+c\) 也服從相應區間內的均勻分布.
- 當\(k>0,(ka+c,kb+c)\)
- 當\(k<0,(kb+c,ka+c)\)
2. \(X \sim N(\mu,\sigma^2)\),\(Y=aX+b\),則 \(Y\sim N(a\mu+b,a^2\sigma^2)\).
證明:可以用上面分布函數求積分的方法,也可以用
-
若\(X\) 的密度函數 \(f_X(x)\),\(Y=kX+b\),則\(f_Y(x)=\frac{1}{|k|}f_x(\frac{x-b}{k})\)
-
三. 期望和方差
3.1 數學期望
3.1.1 離散型數據的數學期望
- \(P(X=x_k)= p_k,\)若\(\sum^\infty_{k=1}x_kp_k絕對收斂,則E(X)=\sum^\infty_{k=1}x_kp_k\).
注意:數學期望不一定均存在.
3.1.2 連續型數據的數學期望
- \(X 的密度函數為 f(x),\int_{-\infty}^{\infty}xf(x)dx\) 絕對收斂,則\(Ex = \int_{-\infty}^{\infty}xf(x)dx\)
3.1.3 隨機變量函數的期望
\(Y=g(X)\)
- 離散 \(E(X)=\sum x_i p_i,Y=g(X)\)則\(E(Y)=\sum g(x_i)p_i\)
3.1.4 期望的性質
- \(EC=C\)
- \(E(C_1X+C_2)=C_1EX+C_2\)
- 若\(X,Y\)獨立,則\(E(XY)=E(X)E(Y)\)
- \(E(X \plusmn Y)=EX \plusmn EY\)
3.2 方差
3.2.1 方差的定義
- \(DX = E((X-EX)^2)\)
- 離散型: \(DX=\sum(X_k-EK)^2p_k\)
- 連續型: \(DX=\sum_{-\infty}^{+\infty}(x-EX)^2f(x)dx\)
但是一般用\(DX=E(X^2)-(EX)^2\)計算.
3.2.2 方差的性質
- \(DC=0\)
- \(D(C_1X+C_2) = C_1^2DX\)
- 若\(X,Y\)獨立則\(D(X \plusmn Y) = D(X)+D(Y)\)
3.3 常見分布的期望和方差
3.3.1 常見離散型的期望與方差
1. 0-1分布
- \(EX = p\)
- \(DX=E(X^2)-(EX)^2=p-p^2=p(1-p)\)
2. 二項分布
-
期望
設\(X_i=\begin{cases} 1,第i次成功\\ 0,第i次失敗\\ \end{cases}\),則\(E(X_i)=1 \times p+0 \times (1-p)=p,E(X)=E(\sum_{i=1}^nXi)=np\) -
方差
\(DX=D(\sum_{i=1}^nXi)=np(1-p)\)
3. 幾何分布
\(P\{X=k\}= (1-p)^{k-1}p\)
\(EX=\sum_{k=1}^nk(1-p)^{k-1}p=\frac{1}{p}\)運用級數求和
\(DX=\sum_{k=1}^nk^2(1-p)^{k-1}p=\frac{1-p}{p^2}\),借助\(\sum_{k=1}^\infty k^2X^{k-1}=\sum_{k=1}^\infty k \cdot kX^{k-1}=(\sum_{k=1}^\infty kX^k)'=(X\sum_{k=1}^\infty kX^{k-1})'=(\frac{X}{(1-X)^2})'=\frac{1-x}{x^2}\)
4. 泊松分布
\(P\{X=k\}=\frac{\lambda^k}{k!}e^{- \lambda},k=0,1,2,3,...,\lambda>0,X\)~\(P(\lambda)\)
- \(EX=\sum_{k=0}^\infty k\frac{\lambda^k}{k!}e^{- \lambda}=\sum_{k=1}^\infty \frac{\lambda^k}{(k-1)!}e^{- \lambda}=\lambda \sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!}e^{- \lambda}=\lambda \times 1=\lambda\)(可以用概率和為1).
- 方差
\(\begin{aligned}E(X^2)&=\sum_{k=0}^\infty k^2\frac{\lambda^k}{k!}e^{- \lambda}\\&=\sum_{k=1}^\infty k\frac{\lambda^k}{(k-1)!}e^{- \lambda}\\ &=\lambda\sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!}e^{- \lambda}+\sum_{k=1}^\infty (k-1)\frac{\lambda^k}{(k-1)!}e^{- \lambda}\\&=\lambda+\sum_{k=2}^\infty \frac{\lambda^k}{(k-2)!}e^{- \lambda}\\&=\lambda+\lambda^{2}\sum_{k=2}^\infty \frac{\lambda^{k-2}}{(k-2)!}e^{- \lambda}\\&=\lambda+\lambda^2\\則DX&=\lambda+\lambda^2-\lambda^2=\lambda\end{aligned}\)
3.3.2 常見連續型的期望與方差
1. 均勻分布
-
\(f(x)=\begin{cases} \frac{1}{b-a},a \leq x \leq b \\ 0, else\\ \end{cases}\)
-
\(\begin{aligned} EX=\int_a^bx\frac{1}{b-a}dx=\frac{a+b}{2}\end{aligned}\)
-
\(\begin{aligned}E(X^2)=\int_a^bx^{2}\frac{1}{b-a}dx=\frac{b^2+ab+a^2}{3}\end{aligned}\)
\(\begin{aligned}DX=\frac{b^2+ab+a^2}{3}-(\frac{a+b}{2})^2=\frac{(b-a)^2}{12}\end{aligned}\)
2. 指數分布
-
\(f(x) = \begin{cases} \frac{1}{ \theta} e^{-\frac{1}{ \theta} x},x \gt 0\\ 0, x \leq 0\\ \end{cases}\)
-
期望
\(\begin{aligned}EX&=\int_{0}^{\infty}x\cdot \frac{1}{ \theta} e^{-\frac{1}{ \theta} x}dx&=\theta\end{aligned}\) -
方差
\(\begin{aligned}D(X^2)=\int_{0}^{\infty}x^{2}\cdot \frac{1}{ \theta} e^{-\frac{1}{ \theta} x}dx = \theta^{2}\end{aligned}\)
3. 正態分布
-
\(E(X)=\mu,D(X)=\sigma^2\)
證明:
\(Z=\frac{X-\mu}{\sigma}\),則 \(Z\sim N(0,1)\)\(E(Z)=\displaystyle\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx=0\)
\(D(Z)=E(X^2)-(EX)^2=1\)
然后\(E(X)=E(\sigma Z+\mu)=\mu,D(X)=D(\sigma Z+\mu)=\sigma^2\)
3.4.
3.4.1. 協方差
當隨機變量\(X,Y\) 獨立時, \(D(X+Y) = D(X)+D(Y)\).
當不獨立的時候, \(D(X+Y) = E((X+Y)^2)-(E(X+Y))^2\), 化簡可以得到:
其中協方差 \(Cov(X,Y)=E((X-EX)(Y-EY))\)
推論: \(E(XY)-E(X)E(Y)=Cov(X,Y)\)
\(Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\)
3.4.2. 相關系數
3.5 中心距和原點矩
- \(k\) 階原點矩: \(EX^k\). 例:\(EX\) 一階原點矩.
- \(k\) 階中心距: \(E((X-EK)^k)\). 例: 一階中心距:0; 二階中心矩:\(E((X-EX)^2)\),即方差.
四. 大數定律與中心極限定理
4.1 大數定律
- 大量重復實驗的平均結果的穩定性.
5.1.1. 馬爾可夫不等式
-
\(P\{X\geq a\}\leq\displaystyle\frac{EX}{a}\)
-
證明:\(EX=\displaystyle\int_0^{\infty}xf(x)dx=\int_a^{\infty}xf(x)dx+\int_0^{a}xf(x)dx\geq\int_a^{\infty}xf(x)dx\geq\int_a^{\infty}af(x)dx=aP\{X\geq a\}\)
4.1.2. 切比雪夫不等式
-
定理: 若 \(EX\) 和 \(DX\) 均存在, \(\forall ε>0\),均有 \(\begin{aligned}P\{|X-EX|\geq ε\} \leq \frac{DX}{ε^2}\end{aligned}\)
證明:
\(\begin{aligned}P\{|X-EX|\geq ε\}&=\int_{|X-EX|\geq ε}f(x)dx \\\\&\leq {\int_{|X-EX| \geq ε}\frac{|X-EX|^2}{ε^2}f(x)dx}\\\\&\leq {\int_{-\infty}^{+\infty}\frac{(X-EX)^2}{ε^2}f(x)dx}\\ \\&\leq\frac{DX}{ε^2} \end{aligned}\)
4.1.3. 切比雪夫大數定律
- 依概率收斂: \(X_n \underrightarrow{P}a, \forall ε>0,\exist N>0 使得當 n>N 時,有 P\{|X_n-a| \leq ε\}=1\)
伯努利大數定律
- \(n\) 重伯努利試驗, \(A\) 發生了 \(m_n\) 次, \(P\) 為概率,則 \(\displaystyle\lim_{n\rightarrow+\infty}P\{|\frac{m_n}{n}-P|\leq ε\}=1\)
證明:
\(\begin{aligned} &m_n\sim B(n,p),Em_n=np,Dm_n=np(1-p),\\ &E(\frac{m_n}{n})=p,D(\frac{m_n}{n})=\frac{p(1-p)}{n}\\ &1\geq P\{|\frac{m_n}{n}-P|\leq ε\}\geq 1-\frac{\frac{p(1-p)}{n}}{ε^2}\rightarrow1,n\rightarrow+\infty\\ \end{aligned}\)
切比雪夫大數定律
-
\(X_1,...,X_n\) 是不相關(沒有線性關系)的變量,\(EX_i\) 和 \(DX_i\) 均存在,且方差有界,,\(DX_i \leq M\), 則 \(\forallε>0\) ,有\(\displaystyle\lim_{n\rightarrow\infty}P\{|\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i-\frac{1}{n}\displaystyle\sum_{i=1}^{n}EX_i|<ε\}=1\)
證明:
\[\begin{aligned} &E(\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i)=\frac{1}{n}\sum_{i=1}^n(EX_i),\\ &D(\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i)=\frac{1}{n^2}\sum_{i=1}^n(DX_i)\leq \frac{M}{n}\\ 則&1\geq\lim_{n\rightarrow\infty}P\{|\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i-\frac{1}{n}\displaystyle\sum_{i=1}^{n}EX_i|<ε\} \geq 1-\frac{D\Bigg(\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i\Bigg)}{ε^2} \geq 1-\frac{M}{nε^2}=1\\ \end{aligned}\]
辛欽大數定律
-
\(X_1,...,X_n\) 是獨立同分布的變量,\(EX_i=\mu\),( 注:方差無要求 ) , 則 \(\forallε>0\) ,有\(\displaystyle\lim_{n\rightarrow\infty}P\{|\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i-\mu|<ε\}=1\)
證明: 同樣可用切比雪夫不等式.
4.2 中心極限定理
-
現象由大量相互獨立的因素影響, 大量獨立同分布的變量和極限分布是正態分布.
-
定理: 隨機變量 \(X_1, X_2,...,X_n\) 獨立同分布, 且 \(E(X_i)=\mu,D(X_i)=\sigma^2>0(i=1,2,3...),\)則隨機變量之和\(\displaystyle\sum_{i=1}^{n}X_i\)的標准化變量
\[Y_n=\frac{\displaystyle\sum_{i=1}^{n}X_i-E(\sum_{i=1}^{n}X_i)}{\displaystyle\sqrt{D(\displaystyle\sum_{i=1}^{n}X_i)}}=\frac{\displaystyle\sum_{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma} \]的分布函數 \(F_n(x)\) 對於任意 x 滿足
\[\begin{aligned} \lim_{n\rightarrow{\infty}}F_n(x)&=\lim_{n\rightarrow{\infty}}P\lbrace\frac{\displaystyle\sum_{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma}\leq x\}\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{x^2}{2}}dx=\Phi_0(x)\end{aligned}\]即該標准化變量近似服從標准正態分布:
\[\frac{\displaystyle\sum_{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma}\sim N(0,1) \]可以改寫成
\[\frac{\overline{X}-\mu}{\sigma n^{-\frac{1}{2}}}\sim N(0,1)或者\overline{X} \sim N(\mu,\frac{\sigma^2}{n}) \] -
e.g. 顧客有\(100\)人,在 \([0,60]\) 內均勻分布,獨立,日銷售額超 3500 概率為.
5.1. 總體與樣本
5.2. 常用統計量
定義
-
樣本均值: \(\overline{X}=\displaystyle\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i\)
-
修正后的樣本方差: \(\begin{aligned}S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\end{aligned}\)
樣本均值和樣本方差的性質
- 定理: 設總體\(X\)的均值為\(EX=\mu\),方差為\(DX=\sigma^2\),樣本{\(X_1,X_2,\ldots ,X_n\)} 來自總體\(X\) ,則:
- \(E\overline{X}=\mu\)
- \(\displaystyle D\overline{X} = \frac{1}{n}\sigma^2\)
- \(ES^2=\sigma^2\)
- 前兩者證明略. \(ES^2=\sigma^2\) 的證明:
\(\begin{aligned} & \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\sum_{i=1}^{n}\left[\left(X_{i}-\mu\right)-(\bar{X}-\mu)\right]^{2} \\=& \sum_{i=1}^{n}\left[\left(X_{i}-\mu\right)^{2}-2\left(X_{i}-\mu\right)(\bar{X}-\mu)+(\bar{X}-\mu)^{2}\right] \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+\sum_{i=1}^{n}(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)\left(\sum_{i=1}^{n} X_{i}-\sum_{i=1}^{n} \mu\right)+n(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)(n \bar{X}-n \mu)+n(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2 n(\bar{X}-\mu)^{2}+n(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-n(\bar{X}-\mu)^{2} \end{aligned}\)
\(\begin{aligned} \text { 有: } & \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-n(\bar{X}-\mu)^{2} \\ & E S^{2}=E\left[\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right] \\ &=\frac{1}{n-1} E\left[\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-n(\bar{X}-\mu)^{2}\right] \\ &=\frac{1}{n-1}\left\{E\left[\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}\right]-n E(\bar{X}-\mu)^{2}\right\} \\ &=\frac{1}{n-1}\left[\sum_{i=1}^{n} E\left(X_{i}-\mu\right)^{2}-n D \bar{X}\right] \\ &=\frac{1}{n-1} [ \sum_{i=1}^{n} D X_{i}-n D \bar{X} ] \\ &=\frac{1}{n-1}\left(n \sigma^{2}-n \frac{1}{n} \sigma^{2}\right)=\sigma^{2} \end{aligned}\)
5.3. 抽樣分布
5.3.1. 三種重要分布
1. 卡方分布(\(\chi^2\)分布)
-
定理: 設隨機變量 \(X_{1}, X_{2}, \ldots, X_{n}\) 相互獨立,且服從標准正態分布,則他們的平方和 \(\chi^{2}=X_{1}^{2}+X_{2}^{2}+\ldots+X_{n}^{2}\) 服從的分布稱為自由度為 \(n\) 的卡方分布.記作: \(X \sim \chi^2(n)\).
其中自由度表示獨立的隨機變量的個數. -
密度函數:
\(f(x)=\left\{\begin{array}{ll}\frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{n}{2}\right)} e^{-\frac{x}{2}} x^{\frac{n}{2}-1}, & \text { 當 } x>0 \text { 時 } \\ 0 & , \text { 當 } x \leq 0 \text { 時 }\end{array}\right.\) -
結論:若\(X \sim \chi^2(n)\) 則:\(EX = n, DX = 2n\)
-
定理:若\(X \sim \chi^2(m)\),\(Y \sim \chi^2(n)\),則\(X+Y \sim \chi^2{(m+n)}\)
-
推論:
\(\begin{aligned}(1)&\quad \text { 若 } X_{i} \sim \chi^{2}\left(n_{i}\right), \quad i=1,2, \ldots, n, \text { 且相互獨立, } \quad \text { 則 }:\\\text { }\\\end{aligned}\)$$\left(\sum_{i=1}^{n} X_{i}\right) \sim \chi{2}\left(\sum_{i=1}{n} n_{i}\right)$$(2)若 \(X_{1}, X_{2}, \ldots, X_{n}\) 相互獨立,同服從於正態分布 \(N\left(\mu_{i}, \sigma_{i}^{2}\right),\) 則
-
2.\(t\) 分布
- 定理:\(\boldsymbol{X} \sim \boldsymbol{N}(0,1), \boldsymbol{Y} \sim \chi^{2}(n), \boldsymbol{X},\boldsymbol{Y},\) 獨立,則 稱隨機變量
服從的分布為自由的為 \(n\) 的 \(t-\) 分布.當自由度很大時,\(t\) 分布無限趨近於標准正態分布.
- 性質:因為該分布是對稱的, \(\boldsymbol{t}_{1-\alpha}(\boldsymbol{n})=-\boldsymbol{t}_{\alpha}(\boldsymbol{n})\)
3. \(F\) 分布
- 定理:若 \(\boldsymbol{X} \sim \chi^{2}\left(n_{1}\right), \boldsymbol{Y} \sim \chi^{2}\left(n_{2}\right), \boldsymbol{X}, \boldsymbol{Y}\) 獨立,
則 隨機變量 \(\quad \boldsymbol{F}=\frac{\boldsymbol{X} / \boldsymbol{n}_{1}}{\mathbf{Y} / \boldsymbol{n}_{2}} \quad\) 所服從的分布為自由度是\((n_1,n_2)\) 的 \(\boldsymbol{F}\) 分布,\(n_1,n_2\) 分別為第一自由度,第二自由度.
5.3.2. 正態總體下的抽樣分布
-
總體是正態分布, 抽樣本, 構造統計量的分布.
-
定理: \(X\sim N(\mu , \sigma^2)\) ,\(\{X_1\ldots X_n\}\) 為樣本,則
(1) \(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)
(2) \(\displaystyle \frac{(n-1) S^{2}}{\sigma^{2}}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} \sim \chi ^{2}(n-1)\) 證明較復雜,略
(3) \(\overline{X}\) 與 \(S^2\) 獨立 -
定理: (前提與上面的相同)
(1) \(\displaystyle \sum^{n}_{i=1}(\frac{X_i-\mu}{\sigma})^2= \frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi ^{2}(n)\) 上面的自由度為 \(n-1\) 下面的為 \(n\) ,可借助"多一個方程,自由未知量少一個來理解"
(2) \(\displaystyle\frac{\bar{X}-\mu}{S} \sqrt{n} \sim t(n-1)\)\(\begin{aligned}證明: &\displaystyle\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)···①,\\&\frac{(n-1) S^{2}}{\sigma^{2}}\sim\chi^2(n-1)···② 則\\&\frac{①}{\sqrt{②/(n-1)}}=\displaystyle\frac{\bar{X}-\mu}{S} \sqrt{n} \sim t(n-1)\end{aligned}\)
- 定理: 兩個正態總體 \(X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2),X取了n_1個,Y取了n_2個,\bar{X},\bar{Y},S_1^2,S_2^2\),則
(1) \(\displaystyle\bar{X}-\bar{Y} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma^2_{1}}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}\right)\)
(2) \(\displaystyle\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1 , n_{2}-1\right)\)
- 定理: 兩個正態總體 \(X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2),X取了n_1個,Y取了n_2個,\bar{X},\bar{Y},S_1^2,S_2^2\),則
六. 參數估計
- 總體分布 X 的分布形式已知,未知的只是分布中的參數,要估計的只是參數或者參數的某一函數.
6.1. 參數的點估計
6.1.1. 矩估計法
-
公式
\(\begin{aligned}\bullet\ \displaystyle&\frac{1}{n}\sum_{i=1}^{n}x_i^k=A_k=\mu_k=E(x^k)\\&樣本矩 \qquad\qquad\quad\quad 總體矩 \end{aligned}\) -
注意: 樣本階中的計算都是 \(n\) 而不會用到樣本方差 \(S^2\)
6.1.2. 極大似然估計
-
估計參數值,使得出現該樣本的可能性最大.
-
\(X\) \(X_1\) \(X_2\) \(X_3\) \(\ldots\) \(X_n\) \(P\)(離散型) \(P_1\) \(P_2\) \(P_3\) \(\ldots\) \(P_n\) \(P\)(連續型) \(f(X_1)\) \(f(X_2)\) \(f(X_3)\) \(\ldots\) \(f(X_n)\) 則 似然函數 \(\begin{aligned}\\ &L(\theta)=P_1P_2P_3\ldots P_n(離散型) \\ &L(\theta)=f(X_1)f(X_2)f(X_3)\ldots f(X_n)(連續型)\end{aligned}\)
令 \(L'(\theta)=0\)(等價於\((\ln(L(\theta)))'=0\)),得到一階導函數零點,進而求得最大值. -
注意: 可能求出多個可能的 \(p\), 保證樣本每一項的概率都為正進行舍去.
6.2. 點估計的優良性准則
1. 無偏性
\(\begin{aligned}&\text { 令}\hat{\theta}{為參數 } \theta\text { 的估計量 }\\&\text { 定義:如果對一切 } \theta \in \Theta, \text { 有 } E \hat{\boldsymbol{\theta}}=\boldsymbol{\theta}成立,則稱\hat\theta為參數\theta 的無偏估計量.\end{aligned}\)
-
例1: 總體 \(X\) ,\(EX=\mu,DX=\sigma^2\),樣本為\((X_1,X_2\ldots X_n)\),則
- \(\bar{X}\) 是\(\mu\) 的無偏估計.
- 樣本方差 \(S^2\) 是 \(\sigma^2\) 的無偏估計.
- 非修正樣本方差是 \(\sigma^2\) 的有偏估計.
注意:例1 永遠成立, 與總體分布類型無關.
-
例2: \(S^2\) 是 \(\sigma^2\) 的無偏估計, \(S\) 不一定是 \(\sigma\) 的無偏估計.
- 可得到結論: \(\hat\theta\) 是 \(\theta\) 的無偏估計, \(g(\hat{\theta})\) 不一定是 \(\theta\) 的無偏估計.
\(\begin{aligned} 證明:&\\ &DS = ES^2 - (ES)^2=\sigma^2-(ES)^2 \\ &ES = \sqrt{\sigma^2-DS} \leq \sigma \\ \end{aligned}\)
-
例3:\(\quad \mathcal{\mu}= EX. \quad\left(X_{1}\cdots X_{n}\right)\)
\(\hat{\mu}=C_{1} X_{1}+\cdots+C_{n} X_{n}\)
\(C_{1}+C_{2}+\cdots +C_{n}=1\)
則 \(\hat\mu\)是\(\mu\) 的無偏估計
2. 有效性
- \(D\left(\hat{\theta}_{1}\right) \leq D\left(\hat{\theta}_{2}\right)\) 方差越小越有效
- 例: 可以證明, \(D(X_i) \geq D(\bar{X}), D(a_1X_1+a_2X_2\cdots a_nX_n) \geq D(\bar{X})\)
3. 相合性(一致性)
- \(\displaystyle\lim _{n \rightarrow+\infty} p(|\hat{\theta}-\theta|<\varepsilon)=1\)
6.3. 參數的區間估計
- 找兩個估計量 \(\hat\theta_1,\hat\theta_2(\hat\theta_1 < \hat\theta_2)\) 為端點的區間\([\hat\theta_1,\hat\theta_2]\) 來估計\(\theta.\)
- 可靠度: 要求區間以很大的可能性包含 \(\theta\) ,即 \(P\{\hat\theta_1 <\theta <\hat\theta_2\}.\)要盡可能大
- 精度: 精度要盡可能高,即區間長度要盡可能小.
6.3.1. 置信區間和樞軸變量
置信區間
-
定義:
- 對於給定的 \(\alpha(\boldsymbol{0}<\alpha<1),\) 如果
\[{P}\left(\hat{\theta}_{1} \leq \theta \leq \hat{\theta}_{2}\right)=1-\alpha \]則稱區間\([\hat\theta_1,\hat\theta_2]\)為置信區間\(, 1-\alpha\)為置信度(置信系數),\(\hat\theta_1,\hat\theta_2\) 分別被稱為置信下限和置信上限.其中 \(\alpha\) 一般取 0.05.
注意: 求置信區間, 就是找一個區間能夠 "框住" \(\theta\) , 因為 \(\theta\) 雖然未知,卻是確定的.
- 對於給定的 \(\alpha(\boldsymbol{0}<\alpha<1),\) 如果
樞軸變量
- \(I=I(T,\theta)\),其中,\(\theta\) 是未知的待估參數, \(T\) 是已知的與 \(\theta\) 有關的統計量, \(I\) 服從的分布 \(\boldsymbol{F}\) 已知且與 \(\theta\) 無關.
- 給定 \(1-\alpha\) , 確定 \(\boldsymbol{F}\) 的上 \(\frac \alpha 2\) 分位數 \(u_{\frac \alpha 2}\) 和上 \((1-\frac \alpha 2)\) 分位數\(u_{1-\frac \alpha 2}\)
- \(P\{u_{\frac \alpha 2}\leq I(T,\theta)\leq u_{\frac \alpha 2}\} = 1-\alpha\), 據此可以求得置信區間.
6.3.2. 單正態總體參數的區間估計
估計 \(\mu\)
- \(\sigma^2\) 已知
- 樞軸變量 \(U = \displaystyle\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\), 然后查表求得 \(u_\frac \alpha 2\) 再根據對稱求得 \(u_{1 - \frac \alpha 2}.\)
- \(\sigma^2\) 未知
- 樞軸變量 \(U = \displaystyle\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\)
估計 \(\sigma^2\)
- \(\mu\) 已知
- 樞軸變量 \(U=\displaystyle\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi ^{2}(n)\)
- \(\mu\) 未知
- 樞軸變量 \(U=\displaystyle \frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi ^{2}(n-1)\)
- 注意卡方分布圖像不是對稱的,所以上分位點必須求兩個.
6.3.2. 雙正態總體參數的區間估計
估計均值差 \(\mu_1-\mu_2\)
-
\(\sigma_1^2,\sigma_2^2\) 已知
- \(\begin{aligned}樞軸變量 \boldsymbol{U}=\frac{(\overline{\boldsymbol{X}}-\overline{\boldsymbol{Y}})-\left(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2}\right)}{\sqrt{\frac{\boldsymbol{\sigma}_{\mathbf{1}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{1}}}+\frac{\boldsymbol{\sigma}_{\mathbf{2}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{2}}}} }\sim \boldsymbol{N}(\mathbf{0}, \mathbf{1}) \end{aligned}\)
-
\(\sigma_1^2=\sigma_2^2=\sigma^2\) 未知
- 樞軸變量\(T=\displaystyle\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{\left(n_{1}+n_{2}-2\right)}} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right)\)
估計方差比 \(\displaystyle{\sigma^2_1}/{\sigma^2_2}\)
- \(\mu_1,\mu_2\) 未知
- 樞軸變量 \(\displaystyle\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1 , n_{2}-1\right)\)
七. 假設檢驗
7.1. 假設檢驗
7.1.1. 假設檢驗問題
- 參數估計:討論如何根據樣本得到總體分布所含參數的優良估計.
- 假設檢驗:討論怎樣在樣本的基礎上觀察上面所得到的估計值與真實值之間在統計意義上相擬合,從而做出一個有較大把握的結論.
- 例子: 設菜廠生產一種燈管,其壽命X \(\sim \mathrm{N}(\mu, 40000),\) 從過去較長一段 時間的生產情況看,燈管的平均壽命為 1500 小時,現在使用了新工藝后,在所生產的燈管中抽取25只,測得的平均壽命為1675 小時,問:采用新工藝后,燈管的壽命是否有顯著提高?
為了判別新產品的壽命是否顯著提高,提出兩個假設:- 原假設 \(H_0:\)
- 新產品的壽命 \(\mu=1500\)
- 接受 \(H_0:\) 新產品壽命沒有提高
- 備擇假設 \(H_1:\)
- 新產品的壽命 \(\mu > 1500\)
- 拒絕 \(H_0:\)(接受\(H_1\)) 新產品的壽命有所提高.
- 注意:一般情況下,將希望成立的假設設為 \(H_1\) ,將其否定形式設為 \(H_0\)
- 原假設 \(H_0:\)
- 假設檢驗問題的處理方法
- 作出參數或者分布的假設.
- 根據樣本值選擇接受還是拒絕所作假設的結論.
7.1.2. 基本概念
- 假設: 對總體分布的各種論斷
- 參數假設: 對總體分布中參數的假設
- 非參數假設: 不是關於總體分布中的參數的假設(如對分布的假設)
- 假設檢驗: 判斷假設是否成立
- 參數假設檢驗
- 非參數假設檢驗
- 假設檢驗問題
- 過程
- 對總體分布中的某些參數或對總體分布的類型做某種假設.
- 根據樣本值做出接受還是拒絕所作假設的結論.
- 分類
- 只提出一個假設,顯著性檢驗問題.
- 提出兩個假設(\(H_0,H_1\)),且兩者必居其一,則稱其中一個為基本假設,另一個為它的對立假設.
- 過程
7.1.3 基本思想
- 由樣本構造用於檢驗 \(H_0\) 的檢驗統計量 \(T\), 並且當 \(H_0\) 成立的時候, \(T\) 的分布已知.
- 檢驗法則的確定
- \(P\{|T| \geq {k}\} = \alpha\) 是一個小概率事件.若 \(H_0\) 為真, 幾乎不可能發生.
- 若 \(|T| \geq {k}\), 拒絕原假設 \(H_0\),此時 \(T\) 的取值范圍被稱為拒絕域.拒絕域的邊界點為臨界點.
- 若 \(|T| < {k}\), 接受原假設 $H_0. $
- 一般步驟
- 第一步 根據問題的要求提出原假設 \(H_{0}\) 和備擇假沒 \(H_{1}\)
- 第二步 選取檢驗統計量 \(T\left({X_{1}, X_{2}, \ldots, X_{n}}\right),\) 在 \(H_{0}\) 成立的情形下確定 其分布.
- 第三步 對於給定的顯著性水平 \(\alpha\),找到 \(H_{0}\) 的拒絕域 \(W\) 和接受域.
- 第四步 根據樣本值 \(\left(x_{1}, x_{2}, \ldots, x_{n}\right)\) 求出檢驗統計值 \(T,\) 如果 \(\left(x_{1}, x_{2}, \ldots, x_{n}\right) \in \mathrm{W}\left(\right.\) 小概率事件發生了), 則拒絕 \(\mathrm{H}_{0},\) 否則接受 \(\mathrm{H}_{0}\)
-
-
-
7.1.4. 假設檢驗中的兩類錯誤
- 第一類錯誤: 棄真
- \(P\{拒絕H_0|H_0為真\}=\alpha\)
- 第二類錯誤: 取偽
- \(P\{接受H_0|H_0為假\}=\beta\)
7.2. 參數假設檢驗
7.2.1 單總體 Z 檢驗
(1) 建立於均值的備擇假設和原假設,選定合適的顯著性水平\(\alpha\)。
(2)建立檢驗統計量乙,滿足Z \(\sim \mathrm{N}(0,1),\) 根據樣本數據計算檢驗統計量數值Z。
(3)根據檢驗統計量數值 Z 和顯著性水平\(\alpha\),計算拒絕域。
(4)根據樣本是否落入拒絕域作出判斷, 有需要可以進一步輸出 p 值(比樣本觀察更極端的概率)。
例題:
一種機床加工的零件尺寸絕對平均誤差為1.35mm。生產廠家現采用一種新的
行加工以期進一一步降低誤差。為檢驗新機床加工的零件平均誤差與舊機床相比
是否有顯著降機床進尺寸的平均誤差與舊機床相比是否有顯著降低?
(a=0.01)尺寸的平均誤差與舊機床相比是否有顯著降低?(\(\alpha\)=0.01)
解:
建立假設: \(\quad H_{0}: \mu \geq 1.35, H_{1}: \mu<1.35\)
\(\bar{x}=1.3152, s=0.365749, n=50,\) 計算檢驗統計量:
結論:拒絕 \(\mathrm{H}_{0^{\circ}}\) 新機床加工的零件尺寸的平均誤差與舊機床相比有顯著降低。
計算p值
根據p值和 我們可以得到同樣的結論:拒絕H \(_{0}\) 。
PS: 這道題中樣本總體方差是未知的, 本來應該用 t 檢驗, 但是在樣本容量大於 30 的時候可以用 Z 檢驗代替 t 檢驗, 所以此處直接用樣本方差代替了總體方差.
7.2.2. 雙總體Z檢驗
1.檢驗條件: 兩個總體近似服從正態分布且兩總體方差\(\sigma_1^2 ,\sigma_2^2\) 均已知, 則構造的統計量\(Z = \frac{(\bar{X}-\bar{Y})-\delta}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\sim N(0,1)\)
2.檢驗條件:兩個總體不服從正態分布,但來自兩總體的樣本的容量較大 \(\left(n_{1}, n_{2} \geqslant 30\right)_{\circ}\) 則我們構造檢驗統計量Z如下: \(\quad Z=\frac{(\bar{X}-\bar{Y})-\delta}{\sqrt{S_{1}^{2} / n_{1}+S_{2}^{2} / n_{2}}} \sim \mathrm{N}(0,1)\)
7.2.3. 單總體 t 檢驗
t檢驗的基本步驟:
(1)建立關於均值的備擇假設和原假設,選定合適的顯著性水平\(\alpha\)。
(2)建立檢驗統計量t,滿足t \(\sim \mathrm{t}\left(n^{\prime}\right),\) 根據樣本數據計算檢驗統計量數值t。
(3) 根據檢驗統計量數值t和顯著性水平\(\alpha\),計算拒絕域。
(4) 根據樣本是否落入拒絕域作出判斷,如有需要可以進一步輸出值。
7.2.4.雙總體 t 檢驗
公式參照參數估計
7.2.5. 卡方檢驗
\(\chi^{2}\) 檢驗的基本步驟:
(1) 進立關於方差的備擇假設和原假設, 選定合適的顯著性水平 \(\alpha_{\circ}\)
(2) 建立檢驗統計量 \(\chi^{2},\) 滿足 \(\chi^{2} \sim \chi^{2}\left(n^{\prime}\right)^{1},\) 根據樣本數據計算檢驗統計量數值 \(\chi^{2}\) 。
(3) 根據檢驗統計量數值 \(\chi^{2}\) 和顯著性水平 \(\alpha,\) 計算拒絕域。
(4) 根據樣本是否落入拒絕域作出判斷, 如有需要可以進一步輸出 \(p\) 值。
例題: 生產的某型號電池,其壽命服從方差 \(\sigma^2=5000\) 的正態分布.隨機取26個電池,測出樣本方差為 \(\mathrm{s}^{2}=9200,\) 問能否推斷波動較以往顯著變化 \((\alpha=0.02)\) ?
7.2.6. F檢驗
原理與上面的類似, 公式參照參數估計
7.3. 非參數假設檢驗
7.3.1 符號檢驗
例: 某地 16 座預售樓盤均價如下表 ( 單位: 元/平方米 )
判斷樓盤價格與媒體公布的 7900元/平方米是否相符(\(\alpha = 0.05\))
若用 \(t\) 檢驗來做, 是無法拒絕原假設 \(H_0: \mu = 7900\) 的, 但是樣本中只有 3 個大於 7900, 此時用平均值並不能很好地衡量總體, 因此考慮用中位數.
建立假設:
\(Mc\) 為總體中位數, \(n_{+} , n_-\) 分別為大於小於 \(7900\) 樣本的個數. \(H_0\) 若為真, \(n_+ , n_-\)
近似相等, 即\(n_+\) 不能太大也不能太小. 因此對 \(n_+\) 進行檢驗:
\(n_{+}=\sum_{i=1}^{n} Y_{i} . \text { 其中 } Y_{i} \sim \mathbb{B}(1, p), n_{+} \sim \mathbb{B}(n, p), p=P\left\{X_{i} \geq M_{e}\right\}\), 做如下假設:
抽到樣本 $n_{+} =3 $ 甚至更為極端的概率為:
則 p 值就是 0.0213, 由\(\mathrm {p} = 0.0213<\alpha = 0.05\), 拒絕原假設, 認為總體中心與 7900 在統計意義上存在顯著差異.
7.3.2 秩和檢驗
兩個連續性總體的密度函數至多只差一個平移. 秩和檢驗可以用於判斷兩個樣本是否來自同一總體.
各項假設:
步驟( 以雙邊檢驗為例 ):
-
將兩個樣本的觀察值按從小到大排序, 求出每個觀察值的秩. (總是假定樣本容量 \(n_1 \leq n_2\))
-
將屬於第 1 個樣本的總體的秩總和記為 \(R_1\) ,其余觀察值的秩記為 \(R_2\).
-
考慮統計量 \(R_1\) , 查表得 \(C_U(\frac \alpha 2)\) 和 \(C_L(\frac \alpha 2)\) , 則拒絕域為 \(R_1\leq C_U(\frac \alpha 2)\) 或者 \(R_1\geq C_L(\frac \alpha 2)\)
*若 \(n_1,n_2 \geq 10\), 當 \(H_0\) 為真的時候, 近似地有:
可以采用 \(Z\) 檢驗.
7.3.3. 偏度峰度檢驗
7.3.4.卡方擬合優度檢驗
判斷一組樣本是否服從某種分布, 可進行卡方擬合優度檢驗, 首先 當然需要設置\(H_0,H_1\).
其中, 將樣本分為 \(k\) 個組, \(T_i\)是每組的理論頻數, \(T_i=nP_i\), \(P_i\) 是每組的理論頻率, \(O_i\) 是每組觀測的頻數
如果理論分布有 \(r\) 個位置參數用估計量代替, 則\(n-> \infty, \chi^2\sim \chi^2(k-r-1)\)
八. 多維
8.1 多維概率分布
分布函數: \(F(x,y) = P\{X \leq x,Y \leq y\}\)
密度函數: \(\displaystyle f(x,y) = \frac{\partial F}{\partial x\partial y}\)
邊緣分布:設 \((X, Y)\) 為二維隨機變量,稱一維隨機變量 \(X\) 或 \(Y\) 的概率分布為二維隨機變量 \((X, Y)\) 關於 \(X\) 或 \(Y\) 對應的邊緣分布; 分別記作: \(F_{X}(x), F_{Y}(y)_{}\)
二維離散型邊緣分布率:
設二維隨機變量 \((X, Y)\) 的分布律為 \(p_{i j},\) 那么對千隨機變量 \(X, Y\) 其各自的分布律對於固定的 \(i, j=1,2, \cdots,\) 滿足
則稱 \(p_{i} .\) 為隨機變量 \((X, Y)\) 的邊緣分布律。
二維連續型的邊緣概率密度:
設二維隨機變量\((X,Y)\)的概率密度為\(f(x,y)\), 由於
則
二維離散隨機變量的條件概率:
設 \((X, Y)\) 是二維離散型隨機變量,其分布律為 \(P\left\{X=x_{i}, Y=y_{j}\right\}=p_{i j},\) 其邊緣概率分別為 \(p_{i}, p_{\cdot j} .\) 則條件概率定義為
獨立性: 聯合概率 = 邊緣概率相乘
幾乎處處成立, 則隨機變量\(X,Y\)是相互獨立的
也可以用 \(f(x,y)\) 可分離判斷.
8.2 \(\chi^2\) 獨立性檢驗
假設兩個隨機變量 \(X,Y\), 給定顯著性水平 \(\alpha\) , 檢驗非參數假設:
若隨機變量X,Y獨立, 則聯合概率 = 邊緣概率\(\times\)邊緣概率. 即, 若原假設 \(H_0\) 成立, 那么實際聯合概率(相對應的經驗頻數)和理論聯合概率,即邊緣概率之積(相對應的理論頻數)不會相差很大. 構造下方的統計量.
其中經驗頻數 \(E_{ij}=n_{ij}\), 理論頻數\(T_{ij}=n\cdot \frac{n_i}{n} \cdot \frac{n_j}{n}\), 當 \(n\) 充分大時, \(\chi^2\) 近似服從 \(\chi^2\) 分布:
若 \(H_0\) 假設成立, 則經驗頻數和理論頻數相差不應該太大, 所以拒絕域為:
九. 回歸分析和方差分析
9.1 回歸分析
9.1.1 相關性分析
-
皮爾遜 (Pearson) 相關系數.
\[r=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(X_i-\bar X)(Y_i-\bar Y)}{s_Xs_Y} \]\(\bar X,\bar Y\) 為樣本均值, \(s_x,s_y\) 是樣本方差.
- Pearson 相關系數用於度量兩個隨機變量 \(X,Y\) 的線性關系. 可近似估計 \(\rho\) .
- 取值范圍: \([-1,1]\) , 絕對值越接近 1 , 則線性關系越強.
- 對稱性.
- 原樣本經過線性變換不影響 \(r\) 值.
- 不描述因果關系.
-
對相關系數 \(r\) 進行顯著性檢驗
\[H_0:\rho = 0, H_1:\rho\neq 0 \]構造統計量:
\[\begin{aligned}\\ t&=\frac{r}{S_r}\sim t(n-2),其中 S_r = \sqrt{\frac {1-r^2}{n-2} } \end{aligned} \]若原假設成立, \(t\) 值應小, 所以拒絕域為 \(|t| > t_{\frac \alpha 2}(n-2)\).
-
斯皮爾曼( Spearman ) 相關系數:
將原始數據根據其在總體數據中的平均降序位置分配一個等級 ( rank ), 這些等級變量之間的 Pearson 相關系數就是 Spearman 相關系數.
例子:
\[\begin{array}{|l|l|} \hline X & Y \\ \hline 2 & 21 \\ \hline 5 & 17 \\ \hline 8 & 14 \\ \hline 11 & 10 \\ \hline 15 & 5 \\ \hline 16 & 3 \\ \hline \end{array} \qquad\longrightarrow \qquad \begin{array}{|l|l|} \hline X & Y \\ \hline 6 & 1 \\ \hline 5 & 2 \\ \hline 4 & 3 \\ \hline 3 & 4 \\ \hline 2 & 5 \\ \hline 1 & 6 \\ \hline \end{array} \]根據右邊表格, 按照下面公式計算 (皮爾遜相關系數展開就是這個):
\[r_{}=\frac{\sum x_{i} y_{i}-\frac{\left(\sum x_{i}\right)\left(\sum y_{i}\right)}{n}}{\sqrt{\sum x_{i}^{2}-\frac{\left(\sum x_{i}\right)^{2}}{n}} \sqrt{\sum y_{i}^{2}-\frac{\left(\sum y_{i}\right)^{2}}{n}}} \]
9.1.2 一元線性回歸分析
概述
對從總體 \((x, Y)\) 中抽取的一個樣 本 \(\left(x_{1}, Y_{1}\right),\left(x_{2}, Y_{2}\right), \ldots,\left(x_{n}, Y_{n}\right)\)
一元線性回歸模型:
根據樣本估計 \(\beta_0,\beta_1\), 記作 \(\hat \beta_0,\hat\beta_1\), 稱為 \(y\) 關於 \(x\) 的一元線性回歸
一元線性回歸要解決的問題
- 參數估計 \(\left\{\begin{array}{l} \beta_{0}, \beta_{1} \text { 的估計 } \\ \sigma^{2} \text { 的估計 }\end{array}\right.\)
- $參數檢驗及模型應用 $$\left{\begin{array}{l} \text { 線性假設的顯著性檢驗 } \ 回歸系數\beta_1 的置信區間\Y 的點估計\end{array}\right.$
參數估計
-
\(\beta_{0}, \beta_{1}\) 的估計 (采用最小二乘法)
求 \(\hat \beta_0,\hat \beta_1\) 使 \(\displaystyle Q\left(\hat{\beta}_{0}, \hat{\beta}_{1}\right)=\min _{\alpha,\space \beta} Q\left(\beta_{0}, \beta_{1}\right)\).
其中 \(Q(\beta_{0},\beta_1)\) 是偏差平方和 \(\displaystyle \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2}\).
求導令導數為零:
\[\begin{aligned} \frac{\partial Q}{\partial \beta_{0}} &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)=0 \\ \frac{\partial Q}{\partial \beta_{1}} &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right) x_{i}=0 \end{aligned} \]整理一下, 得到正規方程系數行列式:
\[\begin{align} n \beta_{0}&+\left(\sum_{i=1}^{n} x_{i}\right) \beta_{1}=\sum_{i=1}^{n} y_{i} \\ \left(\sum_{i=1}^{n} x_{i}\right) \beta_{0}&+\left(\sum_{i=1}^{n} x_{i}^{2}\right) \beta_{1}=\sum_{i=1}^{n} x_{i} y_{i} \end{align} \]記:
\[\begin{aligned} &\bar{y}=\frac{1}{n} \sum_{i} y_{i}, \bar{x}=\frac{1}{n} \sum_{i} x_{i},& s_{x x}=\sum_{i}\left(x_{i}-\bar{x}\right)^{2} \\ &s_{x y}=\sum_{i}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right), &s_{yy }=\sum_{i}\left(y_{i}-\bar{y}\right)^{2} \end{aligned} \]可以由正規方程系數行列式得到等式:
\[\begin{array}{l} \hat{\beta}_{0}+\bar{x} \hat{\beta}_{1}=\bar{y} \\ s_{x x} \hat{\beta}_{1}=s_{x y} \end{array} \]則 $\beta_0,\beta_1 $ 的最小二乘估計為
\[\begin{array} \hat{\beta}_{0}=\bar{y}-\bar{x} \hat{\beta}_{1} \\ \hat{\beta}_{1}=s_{x y} / s_{x x} \end{array} \] -
誤差 \(\sigma^2\) 的估計
殘差: \(e_i = y_i-\hat y_i\), 殘差 \(e_i\) 是 \(\varepsilon_i\) 的估計.
由於 \(D(\varepsilon_i) = E(\varepsilon_i^2) = \sigma^2\)
想到用殘差平方和估計隨機誤差項的方差, 經計算, \(\sigma^2\) 的無偏估計為:
\[s^2 = \frac 1 {n-2} \sum_{i=1}^{n}(y_i-\hat y_i)^2 \]
9.2 方差分析
9.2.1 單因素方差分析
1. 檢驗假設
用於推斷兩個或兩個以上總體均值是否有差異的顯著性檢驗.
- 在方差分析中, 把所考察的試驗結果稱為試驗指標.
- 對試驗指標產生影響的原因稱為因素.
- 因素的各個不同狀態稱為水平.
對於樣本:
各個樣本間是獨立的, 則
檢驗假設:
假設檢驗采用的方法: 平方和分解:
- 總偏差平方和 \(S_T\): \(\displaystyle S_T =\sum_{i=1}^{r}\sum_{j=1}^{n_i}(X_{ij}-\bar{X})^2\)
- 效應平方和:\(S_A\): \(\displaystyle S_A=\sum_{i=1}^{r}n_i(\bar X_{i\bullet}-\bar{X})^2\)
- 誤差平方和\(S_E\): \(\displaystyle S_E = \sum_{i=1}^{r}\sum_{j=1}^{n_i}(X_{ij}-\bar X_{i\bullet})^2\)
定理:
-
\(S_T = S_A+S_E\)
-
\(\frac{S_{E}}{\sigma^{2}} \sim \chi^{2}(n-r)\)
證明:
\[\begin{aligned}\\ \frac{(n_i-1)\cdot\frac{\sum_{j=1}^{n_i}(X_{ij}-\bar X_{i\bullet})^2}{n_i-1}}{\sigma^2}\sim \chi^2(n_i-1) \end{aligned} \]卡方分布可以疊加
-
$ S_{A} \text { 與 } S_{E} \text { 相互獨立}$, 當 \(H_0\) 成立時, \(\frac{S_{A}}{\sigma^{2}} \sim \chi^{2}(r-1)\), 此時, \(\displaystyle F = \frac{{S_A}/(r-1)}{S_E/(n-r)} \sim F(r-1,n-r)\), 因為當拒絕原假設時, \(S_A\) 會偏大, 所以 當 \(F \geq F_{\alpha}(r-1, n-r)\) 時, 拒絕原假設.
單因素試驗方差分析表:
例: 保險公司為了解某一險種在四個不同地區索賠額情況是否存在差異。搜集了這四個不同地區一年的索賠額情況記錄如表所示. 試判斷在四個不同地區索賠額有無顯著的差異?
-
索賠額差異來源於兩個方面:
- 地區之間的差異
- 同一地區內的隨機因素
-
因素: 地區
-
水平: 四個不同的地區
-
最終的方差分析表:
2. 未知參數的估計
- \(\sigma^2\) 的無偏估計為 \(\displaystyle \hat \sigma=\frac {S_E} {n-r}\)
- $\mu_i $ 的無偏估計未 \(\displaystyle \hat{\mu}_i={\bar {X}_{i\bullet}},i=1,2,\cdots ,n_i\)
3. 比較 在部分相等的情況, 比較的方法有兩個:
-
作 \(\mu_i - \mu_j(i \ne j)\) 的區間估計
\[\begin{aligned} &\text { 因 為 } E\left(\bar{X}_{i \bullet}-\bar{X}_{j \bullet}\right)=\mu_{i}-\mu_{j},\\ &D\left(\bar{X}_{i \bullet}-\bar{X}_{j \bullet}\right)=\sigma^{2}\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)\\ &\text{且} \bar{X}_{i \bullet}-\bar{X}_{j \bullet} \text { 與 } \hat{\sigma}^{2}=M S_{E} \text { 相互獨立 }\\ &\text { 故 } \frac{\left(\bar{X}_{i \cdot}-\bar{X}_{j \cdot}\right)-\left(\mu_{i}-\mu_{j}\right)}{\sqrt{M S_{E}\left(1 / n_{i}+1 / n_{j}\right)}}\\&=\frac{\left(\bar{X}_{i \cdot}-\bar{X}_{j \cdot}\right)-\left(\mu_{i}-\mu_{j}\right)}{\sigma \sqrt{\left(1 / n_{i}+1 / n_{j}\right)}} / \sqrt{\frac{S_{E}}{\sigma^{2}(n-r)}}\sim t(n-r) \end{aligned} \]求得置信區間, 若置信區間包含零, 則認為沒有顯著差異.
-
做 \(H_0: \mu_i = \mu_j, H_1:\mu_i\ne \mu_j\) 的假設檢驗
構造檢驗統計量 \(\displaystyle t_{i j}=\frac{\bar{X}_{i \bullet}-\bar{X}_{j \bullet}}{\sqrt{M S_{E}\left(1 / n_{i}+1 / n_{j}\right)}} ,\)
原假設成立時, \(\displaystyle t_{i j} \sim t(n-r),\)
拒絕域 \(|t_{ij}|\geq t_{\alpha/2}(n-r)\)
9.2.2 雙因素試驗的方差分析
略
9.3 正交試驗設計
極差分析
僅有一個例子
\(A,B,C\) 下每個單元格內容為該因素的水平.
找到所有該因素對應水平下的試驗指標, 求和填入. 可知 \(A\) 因素影響最為顯著, \(C\) 最不顯著. 最佳組合為 \(A:3, B:1, C:1\)
十. 降維
10.1 主成分分析(PCA)
不懂線性代數, 下面這些參考了一些 PCA 的說明, 但我總覺得某些解釋的不是很嚴謹.
目標
PCA 常用於高維數據的降維,可用於提取數據的主要特征分量.
對於原始數據矩陣
其中, 列向量\((x_{1i},x_{2i},\cdots,x_{ri})^T\) 為 \(n\) 個樣本中的一個. \(r\) 行表示 \(r\) 個維度.
對該矩陣進行中心化,得到中心化矩陣 \(X\)
X中心化后, 樣本點的中心點即原點, 尋找點分散程度最大的方向, 即讓這些點投影后的分散程度最大.
向量內積
若 $\alpha = (a_1, a_2,\cdots,a_n)^T,\beta = (b_1,b_2,\cdots,b_n)^T $ , 則內積可表示為:
內積的幾何意義:
當 \(B\) 為單位向量\((\sqrt{b_1^2+b_2^2+\cdots+b_n^2}=1)\)時, 兩個向量的內積就是 \(A\) 在這個單位向量方向投影的長度.
散度
分散程度可以用方差或者協方差衡量, 回顧一下方差和協方差:
構建協方差矩陣 \(C\):
由上述公式可知協方差矩陣 \(C\) 的每一項為:
剛好是 \(Z\) 中的第 \(i\) 行與第 \(j\) 行做內積再除以 \(n-1\) 的結果.
則協方差矩陣與中心化后的原始數據矩陣存在以下關聯:
設要投影的單位向量為 \(V\) , 則得到的投影后的值為\(V\cdot Z=V^TZ\), 投影后的方差為:
其中 \(\alpha_i\) 為 \(Z\) 中的第 \(i\) 列.
拉格朗日乘數法
求 \(S^2\) 最大值,限制條件: \(||V||=1\)
構建方程:
對 \(V\) 求導數得:
令導數為零得:
這個形式是特征值和特征向量的定義式, \(C\) 是 \(n\) 階方陣, \(V\) 是特征向量, \(\lambda\) 是特征值. 求特征值和特征向量需要進行特征值分解 (EVD) , 這是線性代數的內容.
降維
將 ② 代入 ① 得 $ s^2 = F(V) = \lambda$, 特征值 \(λ\) 越大, 則散度越大.
將所有的特征值降序排列, 根據最終需要的維度 \(d\) 來選擇前 \(d\) 大的特征值對應的特征向量, 並將特征向量單位化后組成矩陣 \(W = (w_1,w_2,\cdots,w_d)\), 由於每個點都可以視為在各個特征向量方向上的投影組成, 則最終降維后:
矩陣 \(X_{d\times n}\) 的第一行稱為第一主成分, 以此類推.
關於 d 的選擇:
按 czy 課件來的話, 要求 \(\displaystyle \frac{ \sum _{i=1}^d \lambda_i}{\sum_{i=1}^p \lambda_i}\geq 0.85\) , p 為得到的特征值的數量.