概率
隨機變量:實驗的結果稱為隨機變量。
隨機變量分為:
- 離散隨機變量:如骰子。
- 連續隨機變量:如時間范圍。實數范圍(包含有理數和無理數)
因為隨機變量可以取不同的值,所以產出了概率分布的概念,統計學家用概率分布描述不同隨機變量發生的概率。因此有:
- 離散型概率分布
- 連續型概率分布
期望和均值
如果我們擲了無數次的骰子,然后將其中的點數進行相加,然后除以他們擲骰子的次數得到均值,這個有無數次樣本得出的均值就趨向於期望。
均值是針對樣本發生的頻率而言的,期望是針對樣本發生的概率分布而言的,所以總結后便是:
概率是頻率隨樣本趨於無窮的極限。
期望是均值隨樣本趨於無窮的極限。
上述表達的意思其實也就是弱大數定理
對於期望的理解:
理解1:
期望是反應樣本平均值的指標,但是個體信息被壓縮,所以看一個期望值的指標,需要采用“期望+數量”組合的方式去調研。
理解2:
平均數是根據實際結果統計得到的隨機變量樣本計算出來的算術平均值,和實驗本身有關,而數學期望是完全由隨機變量的概率分布所確定的,和實驗本身無關。
實驗的多少是可以改變平均數的,而在你的分布不變的情況下,期望是不變的。
期望(均值)、方差、標准差

方差:在概率論和數理統計中,方差(英文Variance)用來度量隨機變量和其數學期望(即均值)之間的偏離程度.方差越大,隨機變量的結果越不穩定。常用來評估風險。
標准差:概念和方差一樣,都是表示樣本的離散程度。
標准差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標准差,代表一組數據里大部分的數值和其平均值之間差異較大;一個較小的標准差,代表這些數值較接近平均值。(eg:兩組數的集合 {1, 4, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二個集合里的數字明顯與7距離“更近”,通過公式算出第一個集合的標准差約為4.9,第二個約為1.5。)
為什么引入標准差?
因為在實踐中,我們發現相當多的數據都呈現近似於“正態分布”。在正態分布圖中,均值可以告訴我們中間的峰值是多少,而標准差則決定了寬度。
反過來正態分布也可以用來解釋標准差:在一個標准正態分布中,數字出現的概率是固定的。
在方差和標准差之間如何選擇?
方差只是計算標准差過程中產生的一個中間值,但是大多數情況下並不需要此中間值,而是采用了標准差,原因如下:
(1)表示離散程度的數字與樣本數據點的數量級一致,更適合對數據樣本形成感性認知。依然以上述10個點的CPU使用率數據為例,其方差約為41,而標准差則為6.4;兩者相比較,標准差更適合人理解。
(2)表示離散程度的數字單位與樣本數據的單位一致,更方便做后續的分析運算。
(3)在樣本數據大致符合正態分布的情況下,標准差具有方便估算的特性:66.7%的數據點落在平均值前后1個標准差的范圍內、95%的數據點落在平均值前后2個標准差的范圍內,而99%的數據點將會落在平均值前后3個標准差的范圍內。
