隨機變量,期望,方差,離差,殘差


開博第二篇依舊回顧下數據分析涉及到的統計學中最基本的概念,包含了以下幾個概念:隨機變量,期望,方差,離差,殘差。

 

5 隨機變量
 
隨機變量(random variable)表示隨機試驗各種結果的實值單值函數。例如某一時間內公共汽車站等車乘客人數,每次投擲骰子出現的點數等,都是隨機變量的實例。
一個隨機試驗可能結果(稱為基本事件)的全體組成一個基本空間Ω。隨機變量X是定義基本空間Ω上的取值為實數的函數,即基本空間Ω中每一個點,也就是每個基本事件都有實軸上的點與之對應。例如,擲一顆骰子,它的所有可能結果是出現1點、2點、3點、4點、5點和6點 ,若定義X為擲一顆骰子時出現的點數,則X為一隨機變量,出現1,2,3,4,5,6點時X分別取值1,2,3,4,5,6。
 
離散型隨機變量:隨機變量取值離散,只能取離散且有限個可列的數值。例如,擲一顆骰子,只能取1,2,3,4,5,6等6個自然數,不可能取到3.5這個數字的值;一個人的年齡,只能取0~150歲之間的可列數值;汽車廠一年生產的汽車數目,只能是從0到某個可數的自然數范圍內。
連續型隨機變量:如果隨機變量可以在某個區間內取任一實數,且該區間內的實數數目趨於無限個,則稱變量的取值是連續的,稱為連續性隨機變量。例如,統計一塊田中小麥的生長高度,高度取值范圍可以從[20,100]cm,在這個范圍內的小麥生長高度都是可以取到的;統計18歲以上男子的身高,取值范圍從[100,240]cm,在這個范圍內的每個實數都可以取到,也稱作連續性隨機變量。
 
6 期望
先討論離散型隨機變量的期望。在概率論和統計學中,一個離散性隨機變量的期望(Expectation,符號E,或\(\mu\))是試驗中每次某個可能結果的概率乘以這個結果數值的總和。如果假設每次試驗出現結果的概率相等,期望就是隨機試驗在同樣的機會下重復多次的結果相加,計算出的等概率“期望”的平均值。需要注意的是,期望值也許與每一個結果都不相等,因為期望值是該變量輸出值的平均數,期望值並不一定包含於變量的輸出值集合里。
 
離散型隨機變量期望的公式化表示為如下,假設隨機變量為\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),對應發生概率\({p}_{i}(i = 1, 2, ... , n)\),\(E(X)\)為隨機變量的期望:
 

\(E(X) = \sum_{i=1}^{n}{p}_{i}{x}_{i}\)

 
當\({p}_{i}(i = 1, 2, ... , n)\)相等時,也即\({p}_{i}=\frac{1}{n}\)時,\(E(X)\)可以簡化為:
\(E(X) = \frac{1}{n}\sum_{i=1}^{n}{x}_{i}\)
 
連續型隨機變量的期望,可以使用求隨機變量取值與對應概率乘積的積分求得,設\(X\)為連續性隨機變量,\(f(x)\)為對應的概率密度函數,則期望\(E(X)\)為:
\(E(X) = \int xf(x) dx\)
 
7 方差
 
在概率論和數理統計中,方差(Variance,符號D,或\({\sigma}^{2}\))用來度量隨機變量與其數學期望(即均值)之間的偏離程度,在計算上,方差是各個數據分別與其平均數之差的平方的和的平均數。方差是衡量數據離散程度的一個標准,用來表示數據與數據中心(均值)的偏離程度,方差越大,則數據偏離中心的程度越大。同時,變量的期望相同,但方差不一定相同。
 
依舊以離散型隨機變量為例,假設隨機變量為\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),\(\mu\)為隨機變量的數學期望(均值),那么離散型隨機變量\(X\)的方差可以表示為:
\(D(X) = \frac{1}{n}\sum_{i=1}^{n}{({x}_{i} - \mu)}^{2}\)
 
在計算上,如果已知隨機變量\(X\)的期望\(E(X)\),則方差的計算可以簡化為:
\(D(X) = E{{(X-E(X))}^{2}} = E({x}^{2}) - {[E(x)]}^{2}\) 
 
8 離差
離差也叫差量(符號\(\eta\)),是單項數值與平均值之間的差。一般計算離差平方和來表示數據分布的集中程度,此時的離差平方和與方差的關系為:
\({\eta}_{i} = {x}_{i} - \mu\)
\({\eta}^{2} = \sum_{i=1}^{n}{\eta}_{i}^{2} = nD(X)\)
 
9 殘差
殘差是指觀測值與預測值(擬合值)之間的差,即是實際觀察值與回歸估計值的差。把每個殘差的平方后加起來稱為殘差平方和,它表示隨機誤差的效應。
 
例如,在線性回歸中,每一點\({y}_{i}\)的估計值\({y}_{i}^{'}\)和實際值\({y}_{i}\)的差的平方之和稱為殘差平方和。
\(S = \sum_{i=1}^{n}{({y}_{i}-{y}_{i}^{'})}^{2}\)


*******************************************************************
版權所有,轉載請注明出處
歡迎大家就數據分析、數據挖掘相關問題與我溝通交流。
E-mail:humengnju@sina.com
*******************************************************************
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM