1. 隨機變量的數字特征
0x1:為什么我們需要統計隨機變量的數字特征
隨機變量的分布函數(或概率函數,或密度函數)已經非常全面了,精確地描述了這個隨機變量取值的統計規律性,那為什么我們還需要研究隨機變量的數字特征呢?這個小節我們來討論一下這個話題。
1. 實際問題背后概率分布函數的復雜性
在很多實際問題中(特別是一些具體的非物理的問題域),從實際問題場景中采樣得到的樣本集,一般時候都不會100%符合一個經典概率分布(例如泊松分布、高斯分布等)。
例如下圖中,黑點表示我們目前已知的樣本點分布,藍色曲線表示某個非線性函數公式,剛好能夠完美擬合這個樣本集:
雖然上圖表面看好像已經擬合成功了,但是理論上來說,我們是無法寫出准確的概率分布函數的,主要原因有以下幾個方面:
采樣不充分問題:一方面是由於采樣不充分,根據隨機過程抽樣或者蒙特卡洛抽樣得到的樣本點很可能只是真實概率概率分布樣本空間的一個有限不均衡子集。采樣不充分是非常常見的,最極端的例子就是天文學和宇宙學,例如2019年很著名的黑洞照片,其實是科學家們基於非常少的光子,通過數學建模的方式而“還原模擬”出來的。關於大數定理的其他討論,可以參閱另一篇文章。
- 模型搜索空間大:另一方面是由於其樣本分布的非線性,而非線性分布的形式理論上是無窮的,這導致模型空間非常龐大。一般情況下,我們會遵循奧卡姆剃刀原理選擇最簡單同時最有效的模型來擬合,但是要明白的,奧卡姆梯度也不一定是上帝真理,也存在一些特殊的場景中,奧卡姆剃刀原理並不成立。這時我們有兩種選擇:
- 1)一是像上圖那樣用一個非常復雜的高階向量方程來描述樣本集,這項工作可以通過深度神經網絡來得到;
- 2)二是反其道行之,使用一個相對簡單的概率分布模型來進行擬合,但是這會帶來一個新的問題,即“近似假設檢驗置信區間有限”問題。
- 近似假設檢驗置信區間有限:針對一個特定的樣本集,即使我們找到了一個“近似擬合”的概率分布函數(例如泊松分布)對樣本點數據進行擬合,但在大多數實際情況下,樣本點並不是嚴絲合縫地完美擬合的,總會有一些樣本點“偏離”了分布函數的值域區間。我們一般用相關系數來評估我們用來擬合的概率分布和目標樣本之間的擬合程度。
2. 對宏觀數字特性的關注更甚於微觀准確概率分布的關注
除了精確描述抽象事物的概率分布困難之外,在一些時候,我們有時候可能也並不需要去求出隨機變量的准確概率分布。相反,我們關心只是隨機變量的取值在某些方面的統計數字特征,而不是它的全貌。典型的例子如:
- 天文學中的赫羅圖,用光度和溫度來描述所有的恆星。
- 股民在炒股票時,更在意的是大盤的平均走勢及波動情況,具體的大盤指數服從何種分布並不關心。
- 顧客在購買商品時,更關注的是產品的平均壽命,並不需要了解產品壽命具體服從的分布。
- 評估不同的連續型隨機變量之間的關系時,需要借助數字特征進行概括性的定量評估。
這類特征往往通過若干個實數來反映,在概率論中稱它們為隨機變量(或該隨機變量所服從的相應分布)的數字特征。
0x2:隨機變量數字特征的分類
隨機變量的數字特征有很多,這里列舉一些理論分析和工程應用中常用的數字特征:
- 數學期望
- 方差、標准差
- 協方差、相關系數
- k階矩
- 期望向量、協方差矩陣
- 變異系數、分位數、中位數、眾數
我們在這篇文章中選擇一些在數據分析和網絡安全數學建模常用的數字特征進行討論,這也是筆者比較關注的領域,關於其他部分的詳細討論,建議讀者朋友閱讀原書。
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章
2. 隨機變量的期望和方差
0x1:數學期望
1. 數學期望的數學定義
1)離散型隨機變量數學期望定義
設離散型隨機變量 X 的概率函數為:
當級數收斂時,稱
的值為隨機變量 X 的數學期望(簡稱為期望或均值),記作E(X),即:
由於隨機變量的分布刻畫了隨機變量取值的統計規律性,因此,當 X 服從某個分布時,我們也稱E(X)是這個分布的期望。
如果隨機變量滿足等該模型,則期望公式就退化成了我們熟悉的“求平均數”公式。
2)連續型隨機變量數學期望定義
設連續型隨機變量 X 的密度函數為f(x),當積分收斂時,稱
的值為隨機變量 X 的數學期望(簡稱期望或均值),記作:
2. 數學期望的數學性質
數學期望的性質如下:
- E(c) = c
- E(kX +c) = kE(X) + c;
- E(kX + lY) = k * E(X) + l * E(Y)
- 當X與Y相互獨立時,E (XY) = E(X)E(Y)
3. 常用概率分布的數學期望
1)二項分布的數學期望
當X~B(n,p)時,X的概率函數為
因此,根據期望的數學計算公式得:
2)泊松分布的數學期望
當X~P(λ)時,X的概率函數為
因此有:
3)均勻分布的數學期望
當X~U(a,b)時,X的期望為:
4)指數分布的數學期望
當X~E(λ)時,X的期望為:
5)正態分布的數學期望
當X~N(μ,σ)時,X的期望為:
4. 數學期望的意義
總體地概括來說,期望E(X)的直觀含義是:期望反映了隨機變量 X 的平均取值,具體對於不同的概率分布來說,平均取值的具體含義和代指會有所變化和不同。
1)二項分布期望的意義
二項分布的期望值E(X)=np,其意義表示隨機變量X的平均值,或平均水平。
在具體問題中,例如金融組合分組,如果對投資結果進行數學建模,則期望代表投資結果的平均值。
2)泊松分布期望的意義
泊松分布的期望值是λ,其意義表示某個時間段內,隨機事件發生的平均次數。
3)均勻分布期望的意義
均勻分布的期望值是樣本值域區間的中位數,中心點。
4)指數分布期望的意義
指數分布的期望是1/λ,其意義表示某個時間段,隨機事件發生的平均時間間隔。它和泊松分布正好互為倒數。
5)隨機變量的物理意義
數學期望刻畫隨機變量取值的平均數,有直觀含義,同時它也有物理含義。
若在數軸上放置一單位質量的細棒,在離散點 xi 處分布着質點其質量為 mi,則表示該細棒的重心坐標。
若在數軸上放置一單位質量的細棒,它又質量密度函數f(x),則表示該細棒的重心坐標。如下圖所示:
0x2:方差和標准差
1. 方差和標准差的數學定義
設X是一個隨機變量,稱

為X的方差,稱為X的標准差(或標准偏差)
在工程技術中廣泛地使用標准差,因為它與隨機變量本身有相同的量綱(具有實際物理意義)。但是在理論推導中,使用方差較方便。
值得注意的是,方差本質上是隨機變量函數的期望,即隨機變量和均值離差的期望,所以有:
2. 方差的數學性質
- D(c)=0,反之,如果某個隨機變量X的方差為0,那么P(X=c)=1,且其中c=E(X),即隨機變量退化為一個固定的確定實值
- D(X ± Y) = D(X) + D(Y) ± 2E{[X - E(X)] [Y - E(Y)]}
- 當X與Y相互獨立時,D(X ± Y) = D(X) + D(Y)
3. 常用概率分布的方差
1)二項分布的方差
當n=1時,畫出其函數圖:
可以看到,當正反事件概率相同,即等概的時候,方差達到最大值。這也是概率分布的最大熵原理。
隨着試驗次數n的增加,整體方差也線性增大。
可見對於伯努利實驗結果來說,實驗次數增加,期望和方差都是不收斂的,會無限增大。
2)泊松分布的方差
當X ~ P(λ)時,E(X) = λ,,因此, 泊松分布的方差為
泊松分布的期望和方差是相等的,都等於λ。
3)均勻分布的方差
當X~R(a,b)時,E(X) = 1/2 * (a + b ),所以有
因此,均勻分布的方差為
4)指數分布的方差
當X~E(λ)時,,因此,指數分布的方差為
值得注意的是,方差和標准差並不是唯一的用來度量的數據分布波動程度的數字特征,數學上極差也可以發揮類似的作用,除此之外,組合型數字特征也是數據分析中常用的統計量。
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章 第一節
3. 隨機變量的中心化和標准化
0x1:隨機變量中心化
1. 隨機變量中心化數學公式
已知X是任意的隨機變量,當E(X)和D(X)存在時,對隨機變量X作變換:
這個變換稱之為隨機變量中心化。
由期望與方差的性質推得:
即中心化后的隨機變量,期望為0,方差不變。
2. 中心化的性質解釋
- 期望歸零化:中心化隨機變量將其中心點(期望點)平移至原點,使其分布不偏左也不偏右,其期望為零
- 分布波動不變性:平移不影響波動的分布程度,方差不變
0x2:隨機變量標准化
1. 隨機變量標准化數學公式
當D(X)>0時,對隨機變量X作變換:
這個變換稱之為隨機變量標准化。
由期望與方差的性質推得:
2. 標准化的性質解釋
- 期望歸零化:標准化隨機變量將其中心點(期望點)平移至原點,使其分布不偏左也不偏右,其期望為零
- 分布波動歸一化:標准化將隨機變量的取值按照標准差等比壓縮,使其分布不疏也不密,壓縮改變了分布的波動程度,方差變為1
需要注意的是,本章討論的隨機變量中心化和標准化,屬於特征工程里特征歸一化的處理方法之一,除此之外還有其他的特征歸一化處理方法,關於這部分的討論,可以參閱另一篇文章。
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章 第二節
4. 隨機變量的協方差和相關系數
單個隨機變量的數學特性固然非常有用,但是在理論分析和工程實踐中,遇到最多的還是兩個及多個隨機變量之間的互相關系。這節我們來討論兩個隨機變量之間的相互關系,多個隨機變量之間的關系是類似的,可以以此類推。
0x1:協方差
1. 協方差的數學定義
設(X,Y)是一個隨機變量,稱
為隨機變量X和Y的協方差。
按照方差的定義,cov(X,X)= D(X)。協方差本質上是二維隨機變量函數g(X,Y) = [X - E(X)][Y - E(Y)]的期望,即兩個隨機變量方差之間的關系。
計算時常用下列公式:
2. 協方差的代表含義
協方差反映了X和Y之間的協同變化關系,具體為:
設Z = [X - E(E)] [Y - E(Y)],cov(X,Y) = E(Z),則
- 若cov(X,Y) > 0,事件 {Z > 0} 更有可能發生,即X,Y同時發生和同時不發生的可能性更大。說明X和Y均有同時大於或同時小於各自平均值的趨勢;
- 若cov(X,Y) < 0,事件 {Z < 0} 更有可能發生,即X,Y相反發生的可能性更大。說明X和Y其中有一個有大於其平均值的趨勢另一個有小於其平均值的趨勢;
特別的,當Y= X時,cov(X,Y) = cov(X,X) = D(X),協方差退化為方差。
利用協方差,可以把兩個隨機變量方差公式表達成:
3. 協方差的性質
- cov(X,Y) = cov(Y,X)
- cov(X,c) = 0
- cov(kX,lY) = k * l * cov(X,Y)
0x2:相關系數
協方差考察了隨機變量之間協同變化的關系,但是在實際使用中存在一個問題,即量綱不一致問題。例如,如果要討論新生嬰兒的身高X和體重Y的協方差,若采用兩個不同的單位,“米和千克”或者“厘米和克”,后者協方差可能會是前者的數千倍!由於量綱的不同導致X與Y的協方差前后不同。
實際上,回顧文章前面中心化和標准化的知識可知,協方差實際上是把X,Y分別中心化后的,它的值受X與Y量綱大小的影響。為了解決量綱不一致的問題,就有了相關系數。
1. 相關系數的數學定義
設(X,Y)是一個二維隨機變量,當D(X) > 0,D(Y) > 0時,稱為X與Y的相關系數,記作ρ(X,Y),即
這就是隨機變量X和Y的相關系數,又稱為標准化協方差。
利用相關系數,可以把方差的公式表達成
2. 由相關系數導出的等價命題/定理
設(X,Y)是一個二維隨機變量,當ρXY = 0時,下列命題等價:
- X和Y(線性)無關或(線性)不相關
- cov(X,Y) = 0
- E(XY) = E(X) E(Y)
- 隨機變量X和隨機變量Y相互獨立
- D(X + Y) = D(X) + D(Y)
- D(X - Y) = D(X) + D(Y)
3. 相關系數的性質
設(X,Y)是一個二維隨機變量,當D(X) > 0,D(Y) > 0時,相關系數有如下性質:
- ρ(X,Y) = ρ(Y,X)
- | ρ(X,Y) | ≤ 1
- | ρ(X,Y) | = 1 的充分必要條件是:存在不為零的常數k與常數c,使得P(Y = kX + c) = 1,其中
- 當ρ(X,Y) = ±1 時,X與Y之間以概率1成立完全線性相關。當 ρ(X,Y)=1時,稱X與Y完全正線性相關;當ρ(X,Y)=-1時,稱X與Y完全負線性相關
- 當0 < ρ(X,Y) < 1時,稱X與Y正線性相關;當-1 < ρ(X,Y) < 0時,稱X與Y負線性相關;
- X與Y之間線性聯系的程度隨着 | ρ(X,Y) | 的減小而減弱。當ρ(X,Y)=0時,ρXY=0,稱X與Y不相關,則有cov(X,Y)=0,或E(XY)=E(X)E(Y)
0x3:隨機變量之間線性相關和相互獨立之間的包含關系
隨機變量相互獨立和線性無關都刻畫了隨機變量之間的關系,相互獨立時一定線性無關,但反之不一定成立,如下圖:
舉例說明,設隨機變量Z服從區間[0,2π]上的均勻分布,令 X = sinZ,Y = cosZ
根據邊緣概率分布公式得:
根據方差公式有:
,同理有
根據期望公式有:
根據協方差公式有:
所以隨機變量X和Y不相關。
但是因為,所以f(X,Y) != f(X) * f(Y),所以X與Y不相互獨立。
可見,相互獨立是一種比不相關更強的關系。可以這樣說:
- 相互獨立是從整體也即分布的角度刻畫隨機變量之間的關系,它意味着兩個隨機變量無任何關系
- 而不相關僅僅是從數字特征角度刻畫隨機變量之間的關系,它意味着兩個隨機變量之間無線性關系,但不意味着兩個隨機變量之間無其他關系(可能是非線性關系),因此,不相關不一定相互獨立
0x4:協方差矩陣
對於二維隨機變量(X,Y),稱向量
為(X,Y)的期望向量(或均值向量),稱矩陣
為(X,Y)的協方差矩陣,由於cov(X,X) = D(X),因此,n維隨機向量(X1,... ,Xn)的協方差矩陣為
Relevant Link:
《概率論與數理統計》同濟大學數學系 第四章 第四節
5. 從相關系數的角度來看線性回歸參數估計結果
0x1:一個簡單的一元線性回歸案例
有一個公司,每月的廣告費用和銷售額,如下表所示:
我們把廣告費和銷售額畫在二維坐標內,就能夠得到一個散點圖,利用一元線性回歸做出一條擬合直線,y = ax + b。
使用最小二乘法進行參數估計,就可以求出a和b了。
最終的回歸擬合直線為:Y=1.98X+2.25。
0x2:從隨機變量概率分布的角度來看樣本數據分布和回歸模型的參數分布
從概率分布的角度來看線性回歸模型的參數估計過程。我們設樣本點對應的隨機變量為X,參數對應的隨機變量為Y。
從上圖可以得到:ρ(X,Y) != 1
所以X和Y不滿足完全線性相關的關系,也即:不存在不為零的常數k與常數c,使得P(Y = kX + c) = 1
從線性方程組求解的角度來看,直接基於原始輸入樣本點求解線性方程組就是無解的。
所以,線性方程組引入了”顯著性檢驗“這個度量方法,用來評估參數估計的結果和目標樣本點的擬合程度,常用的顯著性檢驗方法包括:
- R2:方程的確定性系數(coefficient of determination)
- F檢驗值
- T檢驗值
這里我們以R2為例進行說明,在R2中,量化度量擬合程度的公式如下
R2顯著性由兩個不同的誤差損失,SSR和SSE比例相除得到。
SSE和SSR共同組成了SST(總殘差損失),我們分別介紹
SST(總偏差)= SSR(回歸線可以解釋的偏差)+ SSE(回歸線不能解釋的偏差)

殘差平方和(SSE,Sum of Squaresfor Error):因變量的各實際觀測值(給定點的Y值)與回歸值(回歸直線上的Y值)的差的平方和,它是除了x對y的線性影響之外的其他因素對y變化的作用,是不能由回歸直線來解釋的
R^2的取值在[0,1]之間,越接近1說明擬合程度越好。
現在回到隨機變量協方差的視角,重寫上述SSR和SSE公式,會發現:
- SSR:本質上就是E(Y - E(Y))
- SSE:本質上就是E(E - E(E))
- R2:本質上就是cov(X,Y)
所以總R2顯著性公式本質上度量了參數隨機變量X和樣本隨機變量Y之間的協同關系,即協方差。協方差越接近1,擬合程度就越高。
0x3:相關系數和回歸系數的一般性關系
上個小節我們用了一個具體的例子來說明了線性回歸中參數估計擬合程度和隨機變量中相關系數的等價關系。這個小節我們將這個結果泛化為一般性的結論。
1. 相關系數是標准化的回歸系數
回歸系數b是有單位的,但若對b作消去單位的標准化處理,即對b中x,y的離均差以各自的標准差 和
為單位:
故有時將相關系數稱為標准回歸系數
2. 線性回歸方程也可用相關系數等價表示
則
可改寫為:
0x4:相關分析與回歸分析的關系
筆者這里用隨機變量相關性分析的視角來討論回歸分析,並不是說相關分析和回歸分析是同一個東西。
相關分析與回歸分析在實際應用中有密切關系。然而它們存在着不同:
- 在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關系的函數形式,確定因果關系,並用數學模型來表現其具體關系
- 相關分析中 ,所討論的變量的地位一樣,不區分自變量和因變量,分析側重於隨機變量之間的種種相關特征
例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在於由X去預測Y
Relevant Link:
https://www.cnblogs.com/LittleHann/p/7354706.html#_label1 https://zhuanlan.zhihu.com/p/49221154 https://blog.csdn.net/mengjizhiyou/article/details/82177830 https://blog.csdn.net/xiaojianpitt/article/details/5453023 http://soundrain.net/2017/05/25/20170525-%E4%BB%8E%E7%BB%9F%E8%AE%A1%E5%AD%A6%E8%A7%92%E5%BA%A6%E7%9C%8B%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E4%B8%AD%E7%9A%84%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0/
6. 回歸模型參數最優化和參數概率分布估計的區別與聯系
回歸模型的參數最優化的目標是得到一個最優的判別式模型,而模型參數概率密度估計的目標是得到一個生成式概率模型。
簡單來說,他們之間的聯系是:通過損失函數最優化技巧得到的模型參數,等價於求E(X - Yobj),即參數隨機變量和樣本點的差值函數的期望均值。
關於這方面的討論,可以參閱另一篇文章。
7. 從信息論Kullback-Leibler散度的角度來看線性回歸參數估計結果
如果將回歸模型的參數空間看作是是一個概率分布的話,損失函數求解的目標就是尋找和樣本隨機變量相關度最高的參數隨機變量分布。除了相關性度量之外,還可以從信息論KL散度角度來度量參數估計結果和樣本分布的擬合程度。
從數學上說,我們可以把Kullback-Leibler散度看做兩個分布p(x)和q(x)之間不相似程度的度量。
在數據壓縮和密度估計(即對未知概率分布建模)之間有一種隱含的關系,因為當我們知道真實的概率分布之后,我們可以給出最有效的壓縮。如果我們使用了不同於真實分布的概率分布,那么我們一定會損失編碼效率,並且在傳輸時增加的平均額外信息量至少等於兩個分布之間的Kullback-Leibler散度。
假設數據通過未知分布p(x)生成,我們想要對p(x)建模。我們可以試着使用一些參數分布q(x | θ)來近似這個分布。
q(x | θ)由可調節的參數θ控制(例如一個多元高斯分布)。一種確定θ的方式是最小化 p(x) 和 q(x | θ) 之間關於θ的Kullback-Leibler散度。
但是我們不能直接這么做,因為我們不知道未知分布p(x)。
但是,我們可以通過數據驅動的方式來近似達到這個目的,假設我們已經觀察到了服從分布p(x)的有限數量的訓練點xn,其中n = 1, . . . , N 。那么,關於p(x)的期望就可以通過這些點的有限加和,使用公式
來近似,即:
可以看到,上式右側的第二項與θ無關,第一項是使用訓練集估計的分布q(x | θ)下的θ的負對數似然函數。因此我們看到,最小化Kullback-Leibler散度等價於最大化似然函數。
關於KL散度相關話題的一些討論可以參閱這篇文章。關於信息論和熵原理的更多討論,筆者會在之后的迭代中繼續完善這篇文章。