數學基礎（1）~ 概率論基礎知識

本文轉載自查看原文 2017-04-13 15:36 9137 數學基礎/ 機器學習/ 數學/ 數據挖掘/ 概率論

概率論基礎

出處：http://www.cnblogs.com/fanling999/p/6702297.html
參考：盛驟, 謝式千, 潘承毅. 概率論與數理統計, 第四版[M]. 高等教育出版社, 2008.

本文主要旨在對概率統計的基礎概念與知識進行概要的總結，一來是對自身學習過程的一個回顧，二來是便於使用到時可以參考，具體細節可以參考給出的書目1~5章。
概率論是數理統計的基礎，也是很多機器學習模型的支撐，對相關的概念有所掌握和理解對后面的學習有很大幫助。

（1）給出了概率論中基本概念的定義，即隨機試驗、樣本空間、隨機事件、頻率和概率、等可能概型、條件概率和獨立性等概念。其中較為重要的概念有（a）概率是頻率是客觀存在，當試驗次數充分大時頻率將收斂於概率。（b）幾個公式：乘法公式、全概率公式、貝葉斯公式，清楚理解其中划分的概念。

（2）對隨機變量及其分布進行了總結。隨機變量可以分為：離散型和非離散型，其中非離散型主要以連續型隨機變量為主。離散型研究其分布律，而連續型則研究其概率密度（某一個點的改變不影響總體，因此求積分時開區間和閉區間沒有太大區別）。常用的離散型隨機分布：（0-1）分布、二項分布（伯努利試驗）、泊松分布。常用的連續型隨機分布有：均勻分布、指數分布、正態分布（高斯分布）。其中正態分布最為常用。

（3）多維隨機變量的分布，可以基於乘法公式和條件概率公式對相應的概率進行計算，計算的是多個試驗發生的聯合概率。相互獨立的概念較為重要，很多模型都基於獨立性前提。

（4）隨機變量的數字特征反應了分布的一些統計特性，數學期望反應了分布的均值、方差反應了分布的集中程度、協方差和相關系數反應了隨機變量之間的相互作用關系。矩是數理統計中參數估計的重要參考。當隨機變量很多時，協方差矩陣是很好的分析工具。

（5）大數定律和中心極限定理是概率論的核心基本理論。

1. 概率論的基本概念

1.1 基本概念

隨機試驗（E）

（1）可以在相同的條件下重復地進行
（2）每次試驗的可能結果不止一個，並且能事先明確試驗的所有可能結果
（3）進行一次試驗之前不確定哪一個結果會出現
例子：拋一枚硬幣，觀察正面，反面出現的情況

樣本空間 (S)

隨機試驗所有可以能的結果組成的集合

樣本點

樣本空間的元素，即每個可能的結果

隨機事件

隨機試驗E的樣本空間S的子集稱為隨機事件

基本事件

樣本空間的單個元素，一個可能結果構成的集合

必然事件（全集）、不可能事件（空集）

事件的關系與事件的運算（類似於集合運算）

相等、和事件、積事件、差事件、互不相容（互斥）、逆事件（對立事件）

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413143508798-19989805.jpg)

1.2 頻率與概率

頻率

定義：在相同條件下，進行n次試驗，在這n次試驗中，事件A發生的次數，稱為事件A發生的頻數，比值：f=頻數／試驗次數，稱為事件A發生的頻率。
基本性質：（1）0 <= f <= 1 ; (2) f(S) = 1; (3) 兩兩互不相融事件的可列可加性。
穩定性：當試驗重復次數很大時，頻率趨於穩定，可以用來表征事件A發生可能性的大小。

概率

定義： 設E是隨機試驗，樣本空間為S，對於E的每一個事件A賦予一個實數，記為P(A)，稱為A的概率
性質：（1）非負性 P(A) >= 0; (2)規范性，P=1表示必然事件，等於P(S) ; (3) 可列可加性（互不相容事件）。
（由頻率的觀察引申而來，事情發生的可能性是客觀存在的）

1.3 等可能概型（古典概型）

滿足兩個性質：（1）試驗的樣本只包含有限個元素；（2）試驗的基本事件，即每個可能的結果發生的可能性相等。
典型例子：拋硬幣
長期實踐的發現：“概率很小的事件在一次試驗中幾乎是不發生”（稱之為實際推理原理）

1.4 條件概率

假設A和B是試驗E的事件，考慮A已經發生的情況下B發生的概率：P(B|A) = P(AB) / P(A)；滿足概率的三個基本性質。
乘法公式：P(AB) = P(A)P(B|A)
事件S的划分：B₁, ... ,B_i, ... B_n
全概率公式：P(A) = P(A|B₁) + ... + P(A|B_i) + ...+ P(A|B_n)
貝葉斯公式：P(B_i|A) = P(B_iA)/P(A) = P(A|B_i)P(B_i) / (P(A|B₁) + ... + P(A|B_i) + ...+ P(A|B_n))

\[P(B_{i}|A) = \frac{P(AB_{i})}{P(A)} = \frac{P(A|B_{i})P(B_{i})}{\sum_{j=1}^{n}P(A|B_{j})P(B_{j})} \]

注意：P(A) > 0, P(B_i) > 0

1.5 獨立性

獨立性是概率論和數理統計中很重要的概念，很多情況需要滿足獨立性才適用，一般根據實踐來確定事件之間是否相互獨立。

定義：若 P(AB) = P(A)P(B)，則稱AB事件相互獨立，即A和B兩個事件的發生互不影響。
定理1：若P(A) > 0 ，且 P(B|A) = P(B) 等價於 AB相互獨立
定理2：若AB相互獨立，則其對立事件也相互獨立
可以很自然的推廣到n個事件的情況

2. 隨機變量及其分布

2.1 隨機變量

定義：設隨機試驗的樣本空間為S={e}, X=X(e)是定義在樣本空間S上的實值單值函數。稱X=X(e)為隨機變量。
這樣一來，樣本空間可以很好的映射到一系列的實值上，方便了接下來各種性質的討論。

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142501220-1508071515.jpg)

隨機變量可以分為：離散型隨機變量和非離散型隨機變量，其中非離散型隨機變量主要以連續型隨機變量為主。
離散型隨機變量：隨機變量可能取到的值時有限個數或可列無限多個
連續型隨機變量：隨機變量可能取到的值時無限個數

2.2 隨機變量的分布函數

定義：設X是隨機變量，x是任意實數，則分布函數為：

\[F(x) = P(X\leqslant x), x\in (-\infty, \infty) \]

則對於任意實數x₁, x₂，有 P{x₁ < X <= x₂} = F(x₂) - F(x₁)

性質：（1）F(x)是不減函數;（2）0<=F(x)<=1, 且 F(-inf) = 0, F(inf) = 1; （3）F(x+0) = F(x)，即F(x) 右連續

2.3 離散型隨機變量及其分布律

分布律：對於離散型隨機變量X，可以取的值有 x₁,...,x_i, ..., x_n ，對應的概率為 P(x₁),...,P(x_i), ..., P(x_n)。

常用離散型隨機分布

（1）0-1分布

事件只有發生和不發生兩種可能，發生的概率為p，則不發生的概率為（1-p），
那么P{X=k} = p^k(1-p)^1-k, k = 0,1

（2）伯努利試驗、二項分布

伯努利試驗：一次試驗只有兩種可能結果，發生A，或不發生A'，並且P(A) = p, P(A') = 1-p
n次獨立重復的伯努利試驗服從二項分布：設X表示事件A發生的次數，則P{X=k} = C(n,k)p^k(1-p)^n-k, k = 0,1,...,n ，記為X~(n,p)，即X服從參數為n，p的二項分布。
注意：重復是指每次試驗p不變；獨立是指各次結果互不影響。

（3）泊松分布

定義：記為X~PI(lambda)

\[P(X=k) = \frac{\lambda ^k e^{-\lambda } }{k!}, k=0,1,2,.... \]

泊松定理：當n很大時，泊松分布近似等於二項分布，並且 lambda = np, 即 $C(n,k)p^{k}(1-p)^{n-k} \approx \frac{\lambda ^{k} e^{-\lambda}}{k!} (\lambda = np)$，定理表明當n很大時，p很小，上式常用來作二項分布概率的近似計算。

實際中很多事件服從泊松分布：一本書一頁中的印刷錯誤數，某地區在一天內郵遞遺失的信件數、某一醫院在一天內的急診病人數、某一地區一個時間間隔內發生交通事故的次數，在一個時間間隔內某種放射性物質發出的、經過計算機的粒子數等。
（可以發現這些例子中，都是小概率事件，從實際中與泊松定理聯系起來。）

2.4 連續型隨機變量及其概率密度

對於連續型隨機變量X，$f(x)$稱為X的概率密度函數，簡稱概率密度。分布函數定義如下：

\[F(x)=\int_{-\infty }^{x} f(t) dt \]

概率密度函數的積分，即圍成的面積，為隨機變量落入某一區間的概率,如圖所示:

\[P(x_{1}\leqslant X \leqslant x_{2}) = \int_{x_{1}}^{x_{2}} f(t) dt \]

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142127330-893832798.jpg)

（1）均勻分布

隨機變量落入區間（a，b）中任意等長度的子區間內的可能性是相同的。或者說它落入（a，b）區間內的概率只依賴於子區間內的長度而與子區間的位置無關。 X~U（a,b）

if a<x<b : 
	f(x) = 1/(b-a)
else : 
	f(x) = 0

均勻分布圖：

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142143298-1092042413.jpg)

（2）指數分布

if x>0 : 
	f(x) = (1/theta)*exp(-x/theta)
else
	f(x) = 0

指數分布圖：

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142155283-1263936247.jpg)

（3）正態分布（高斯(Gauss)分布）

\[f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{\frac{(x-\mu )^{2}}{2\sigma ^{2}}} , -\infty < x < \infty \]

其中$\mu,\sigma$為常數，分別表示均值和標准差，$$X \sim N(\mu,\sigma ^{2})$$
均值為0，方差為1的正態分布稱為標准正態分布，記為X~N(0,1)。任何一個正態分布都可以通過標准化操作轉換成標准正態分布，標准化操作等式如下：

\[X^* = \frac{X-\mu}{\sigma} \]

高斯分布的不同參數的影響：

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142227126-1173946572.jpg)

高斯分布的“$3 \sigma $”法則 ： $\mu - 3\sigma $ 范圍的覆蓋率已經達到99.%以上。

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142239330-1214447307.jpg)

高斯分布的上$ \alpha $ 分位點

\[P(X > z_{\alpha}) =\alpha , 0 < \alpha < 1 \]

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142250189-165586202.jpg)

2.5 隨機變量的函數的分布

隨機變量X的函數Y=g(X)也是一個隨機變量，可以根據X的分布率或概率密度求出Y的分布率或概率密度。

3. 多維隨機變量及其分布

多維隨機變量是在一維上的擴展，以二維隨機變量為例

（1）離散型隨機變量

分布函數：

\[F(x,y) = P(X\leqslant x, Y\leqslant y ), -\infty < x < \infty, -\infty < y < \infty \]

分布率：

\[P(X = x_{i}, Y=y_{i}) = p_{ij}, i=1,2,... (p_{ij}\geqslant 0, \sum_{i=1}^{\infty} \sum_{j=1}^{\infty}p_{ij}=1) \]

（2）連續型分布函數（概率密度對應三維空間積分）

分布函數：

\[F(x,y) = \int_{-\infty}^{y} \int_{-\infty}^{x} f(x,y) dxdy , f(x,y)>0 \]

概率：

\[P((X,Y)\in G) = \iint_{G}f(x,y)dxdy \]

（3）其他概念

邊緣分

\[F_{X}(x) = P(X\leqslant x) = P(X\leqslant x, Y<\infty) = F(x, \infty) \]

\[F_{Y}(y) = P(Y\leqslant y) = P( X<\infty, Y\leqslant y) = F(\infty,y) \]

條件分布
離散型隨機變量：

\[P(Y=y_{j} | X=x_{i}) = \frac{P(X=x_{i}, Y=y_{j})}{P(X=x_{i})} ,j=1,2,... \]

連續型隨機變量：

\[f_{Y|X}(y|x) = \frac{f(x,y)}{f_{Y}(y)} \]

相互獨立

\[F(x,y)=F_{X}(x)F_{Y}(y) \]

\[f(x,y)=f_{X}(x)f_{Y}(y) \]

\[P(X=x_{i}, Y=y_{j}) = P(X=x_{i})P(Y=y_{j}) \]

兩個隨機變量的分布函數
Z = X+Y
Z = Y/X
Z = XY
M = max{X, Y}
N = min{X, Y}

4. 隨機變量的數字特征

4.1 數學期望

數學期望簡稱期望，又稱為均值。數學期望完全由隨機變量的分布所確定，若X服從某一分布，也稱E(X)是這一分布的數學期望。
離散型隨機變量: $$ E(X) = \sum_{k=1}^{\infty} x_{k}p_{k} $$
連續型隨機變量：$$ E(X) = \int_{-\infty}^{\infty} xf(x) dx $$

數學期望幾個重要性質

設C是常數，則有E(C) = C.
設X是一個隨機變量，C是常數，則有：E(CX) = CE(X).
設X，Y是兩個隨機變量，則有：E(X+Y) = E(X)+E(Y)
設X, Y是相互獨立的隨機變量，則有：E(XY) = E(X)E(Y)

4.2 方差

定義
方差表達了隨機變量X的取值與其數學期望的偏離程度。

\[D(X)=Var(X)=E( [X-E(X)]^2 ) \]

\[\sigma (X) = \sqrt{D(X)} \]

由定義可知，方差實際上就是隨機變量X的函數

\[g(X) = (X-E(X))^2 \]

的數學期望，因此
離散型隨機變量的方差：

\[D(X) = \sum_{k=1}^{\infty} [x_{k} -E(X)]^2 p_{k} \]

連續型隨機變量的方差：

\[D(X) = \int_{-\infty}^{\infty} [x-E(X)]^2 f(x)dx \]

隨機變量X的方差可按下列公式計算（常用）：

\[D(X) = E(X^2) - [E(X)]^2 \]

標准化變量：
期望為0，方差為1

\[X^* = \frac{X-\mu}{\sigma} \]

**方差的幾個重要性質： **

設C為常數，則D(C) = 0
設X是隨機變量，C是常數，則有 $$ D(CX) = C^2D(X), D(X+C) = D(X) $$
設X，Y是兩個隨機變量，則有 $$ D(X+Y) = D(X) + D(Y) + 2E( (X-E(X))(Y-E(Y)) ) $$,若X,Y相互獨立，則 $$ D(X+Y) = D(X) + D(Y) $$
D(X)=0的充要條件是X以概率1取常數E(X)，即 P{X=E(X)} = 1

切比雪夫（Chebyshev）不等式：
切比雪夫不等式給出了在隨機變量的分布未知，而只知道E(X)和D(X)的情況下估計概率 P{|X-E(X)|<epsilon}的界限，epsilon是任意正數。

\[P(|X-\mu|\geqslant \varepsilon ) \leqslant \frac{\sigma ^2}{\varepsilon ^2} \]

\[P(|X-\mu|< \varepsilon ) \geqslant 1 - \frac{\sigma ^2}{\varepsilon ^2} \]

![](http://images2015.cnblogs.com/blog/550820/201704/550820-20170413142309548-368464086.jpg)

4.3 協方差及相關系數

協方差：$$ Cov(X,Y) = E(X-E(X))E(Y-E(Y)) $$
相關系數：$$ \rho _{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}} $$
由定義可知：Cov(X,Y) = Cov(Y,X), Cov(X,X) = D(X)

協方差性質：

\[ Cov(aX, bY) = abCov(X,Y) $$ ab是常數 \]

相關系數性質：

\[|\rho _{XY}|\leqslant 1 \]
\[ |\rho _{XY}|= 1 $$ 的充要條件是，存在常數a,b，使P(Y=a+bX) = 1 \]

_注意：_相關系數也稱為線性相關系數，它是一個可以用來描述隨機變量（X，Y）的兩個分量X，Y之間的線性關系緊密程度的數字特征。當相關系數較小時，X，Y的線性相關程度較差；當相關系數=0時稱X，Y不相關。值得注意的是，不相關是指X，Y之間不存在線性關系，它們還可能存在除線性關系之外的關系。
X，Y相互獨立是對X，Y的一般關系而言。X，Y相互獨立則X，Y一定不相關；反之，若X，Y不相關則X,Y不一定相互獨立。
特別的，對於二維正態隨機變量（X，Y），X和Y不相關與X和Y相互獨立是等價的。

4.4 矩、協方差矩陣

k階原點矩（k階矩）

\[E(X^k),k=1,2,... \]

k階中心矩

\[E([X-E(X)]^k), k=2,3,... \]

k+l階混合矩

\[E(X^kY^l), k,l=1,2,.... \]

k+l階混合中心矩

\[E([X-E(X)^k[Y-E(Y)]^l), k,l=1,2,... \]

協方差矩陣

\[c_{ij} = Cov(X_{i}, X_{j}) = E([X_{i}-E(X_{i})][X_{j}-E(X_{j})]) , i,j = 1,2,...,n \]

一般n維隨機變量的分布是不知道的，或者是太復雜，以至於在數學上不易處理，因此在實際引用中協方差矩陣顯得尤為重要。

5. 大數定律及中心極限定理

大數定律：隨機變量序列的前一些項的算數平均在某種條件下收斂到這些項的均值的算術平均值；
中心極限定理：在相當一般的條件下，當獨立隨機變量的個數不斷增加時，其和的分布趨於正態分布。

5.1 大數定律

弱大數定理（辛欽大數定理）：對於相互獨立且同分布的序列而言

\[\lim_{n\rightarrow \infty} P(|\frac{1}{n} \sum_{k=1}^{n}X_{k}-\mu|<\varepsilon ) = 1 \]

伯努利大數定理：

\[\lim_{n\rightarrow \infty} P(|\frac{f_{A}}{n}-p|<\varepsilon ) = 1 \]

當試驗次數很大時，便可以用事件的頻率來代替事件的概率。

5.2 中心極限定理

定理一（獨立同分布的中心極限定理）：

\[Y_{n} = \frac{\sum_{k=1}^{n}X_{k} - E(\sum_{k=1}^{n}X_{k})}{\sqrt{D(\sum_{k=1}^{n}X_{k})}} = \frac{\sum_{k=1}^{n}X_{k}-n\mu }{\sqrt{n}\sigma } \]

\[Y_{n} \sim N(0,1) \]

定理二（李雅普諾夫（Lyapunov）定理），前提：各隨機變量相互獨立。
無論各個隨機變量X_k (k=1,2,..)服從什么分布，只要滿足定理的條件，那么它們的和，當n很大時就近似服從正態分布。

定理三（棣莫弗一拉普拉斯（ De Moivre－ Laplace）定理）正態分布是二項分布的極限分布。當n充分大時可以使用正態分布作為二項分布的近似。二項分布的標准化變量服從標准正太分布。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習概率論的一些基礎知識【數學相關】概率論的微積分基礎概率統計基礎知識概率論基礎概率論基礎復習數學基礎-概率論05（統計推斷-分布擬合檢驗）概率論基礎（三）隨機向量概率論基礎和貝葉斯定理考研高等數學基礎知識概率論基礎（一）隨機事件和概率