統計學之幾種常見的數據分布


【理論】概率分布

基本概念:

隨機變量;古典概率;條件概率;離散變量;連續變量;期望值

離散變量概率分布

二項分布;伯努利分布;泊松分布

連續變量概率分布

均勻分布;正態分布;指數分布;伽瑪分布;偏態分布;貝塔分布;威布爾分布;卡方分布;F分布

一、基本概念

隨機變量:

隨機變量(random variable)表示隨機試驗各種結果的實值單值函數。簡單地說,隨機變量是指隨機事件的數量表現。例如一批注入某種毒物的動物,在一定時間內死亡的只數;某地若干名男性健康成人中,每人血紅蛋白量的測定值;等等。

古典概率:

古典概率通常又叫事前概率,是指當隨機事件中各種可能發生的結果及其出現的次數都可以由演繹或外推法得知,而無需經過任何統計試驗即可計算各種可能發生結果的概率。

因為古典事件的結果數目已知,且每種結果對應的發生概率相等。例如扔骰子,不管如何扔,出現某個點數的概率等於1/6

條件概率:

條件概率是指事件A在事件B發生的條件下發生的概率。條件概率表示為:P(A|B),讀作“A在B發生的條件下發生的概率”。若只有兩個事件A,B,那么
image.png

變量

離散變量

連續變量

期望值

期望值是隨機試驗在同樣的機會下重復多次的結果計算出的等同“期望”的平均值。

二、離散變量概率分布

二項分布

二項分布是由伯努利提出的概念,指的是重復n次獨立的伯努利試驗,發生的結果只有兩個。

特點:

1.每次試驗只有兩種可能得結果:“成功”與“失敗”,兩個結果只會出現一個;

2.每次試驗前,如果“成功”的概率是p,那么“失敗”的概率是(1-p);

3.每次試驗相互獨立,每次試驗結果不受其他各次試驗結果的影響

伯努利分布

伯努利分布是二項分布在n=1時的特例.

伯努利分布又稱為兩點分布, 需要引入伯努利實驗.

伯努利試驗是只有兩種結果的單次隨機試驗,

進行一次伯努利試驗, 成功(X=1)概率為p(0<=p<=1), 失敗(X=0)的概率1-p, 則稱隨機變量X服從伯努利分布

泊松分布

泊松概率分布是在連續時間或空間單位上發生隨機事件次數的概率。通俗解釋就是基於過去某個隨機事件在某段時間或某個空間內發生的平均次數,預測該隨機事件在未來同樣長的時間或同樣大的空間內發生n次的概率。

應用:經常被用於銷售較低的商品庫存控制,特別是價格昂貴、需求量不大的商品

連續性變量概率分布

指數分布:

指數分布描述的事兩次隨機事件發生的時間間隔的概率分布情況,這里的時間間隔指的是一次隨機事件發生到下一次隨機事件再發生的時間間隔。

指數分布與泊松分布正好互補

均勻分布

均勻概率分布是古典概率分布的連續形式,是指隨機事件的可能結果是連續型數據變量,所有的連續型數據結果所對應的概率相等。

概率密度函數如下:

image.png

則稱X在區間(a,b)上服從均勻分布. 記為X~U(a,b)

正態分布

正態概率分布是所有概率分布中最重要的形式,它能夠表示被測事物處於穩定狀態的原因。正態分布曲線酷似古代的大鍾,曲線被穿過均值的垂線分成完全相等的兩半。

曲線的總面積為1,代表100%的概率,其中50%位於均值垂線的左側,另外50%位於均值垂線的右側。

普通的正態分布概率密度公式:

image.png

當出現均值=0, 標准差=1, 標准正態分布時:

image.png

正態分布中還具有特殊的性質:經驗法則(6西格瑪法則)

68.3% 的數據會分布在均值± 1個標准差范圍內;

95.4% 的數據會分布在均值± 2個標准差范圍內;

99.7% 的數據會分布在均值± 3 個標准差范圍內.

卡方分布

卡方分布是概率統計里常用的一種概率分布,也是統計推斷里應用最廣泛的概率分布之一,在假設檢驗與置信區間的計算中經常能見到卡方分布的身影。

卡方分布能用於從樣本方差到總體方差的推斷性分析,甚至還能用於非參數檢驗,被稱為卡方檢驗

beta分布

貝塔分布(Beta Distribution) 是一個作為伯努利分布和二項式分布的共軛先驗分布的密度函數,在機器學習和數理統計學中有重要應用。在概率論中,貝塔分布,也稱Β分布,是指一組定義在(0,1) 區間的連續概率分布。



作者:三才數據分析學習筆記
鏈接:https://www.jianshu.com/p/86ec053ff4b5
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM