帕累托分布&廣義帕累托分布


PDF、PMF、CDF

概率論中PDF、PMF和CDF的區別與聯系

1. 概念解釋

  • PDF:概率密度函數(probability density function), 在數學中,連續型隨機變量的概率密度函數(在不至於混淆時可以簡稱為密度函數)是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。
  • PMF:概率質量函數(probability mass function), 在概率論中,概率質量函數是離散隨機變量在各特定取值上的概率。
  • CDF:累積分布函數 (cumulative distribution function),又叫分布函數,是概率密度函數的積分,能完整描述一個實隨機變量X的概率分布。

2. 數學表示

2.1 PDF

如果XX是連續型隨機變量,定義概率密度函數為$f_X(x)$,用PDF在某一區間上的積分來刻畫隨機變量落在這個區間中的概率,即

image-20210115165154446

2.2 PMF

如果XX離散型隨機變量,定義概率質量函數為$f_X(x)$,PMF其實就是高中所學的離散型隨機變量的分布律,即

image-20210115170542614

2.3 CDF

不管是什么類型(連續/離散/其他)的隨機變量,都可以定義它的累積分布函數,有時簡稱為分布函數。

  • 對於連續型隨機變量,顯然有:

    image-20210115171314920

    那么CDF就是PDF的積分,PDF就是CDF的導數

  • 對於離散型隨機變量,其CDF是分段函數,比如舉例中的擲硬幣隨機變量,它的CDF為:

    image-20210115171329186

Pareto(帕累托)分布

Survial function 生成函數

The survival function is also known as the survivor function[2] or reliability function.[3]

又稱 complementary cumulative distribution function.

image-20210115205259956

其實就是1-CDF

Pareto distribution

https://en.wikipedia.org/wiki/Pareto_distribution

image-20210115210930502
  • 注意形狀參數$\alpha$必須是正的!
image-20210115211037169 image-20210115211117408 image-20210115211137423

Generalized Pareto distribution

https://en.wikipedia.org/wiki/Generalized_Pareto_distributionimage-20210115220131433

image-20210115220237496
  • 注意:形狀參數(或者稱為尾部指數)$\xi\in(-\infty,+\infty)$!
    image-20210115220851212

因此,GP 分布是指數分布 (k = 0) 和帕累托分布 (k>0) 的廣義化。GP 將這兩個分布包括在更大的族中,因此可以實現連續的形狀范圍。

Matlab實現

利用廣義帕累托分布對尾數據建模

https://ww2.mathworks.cn/help/stats/examples/modelling-tail-data-with-the-generalized-pareto-distribution.html

廣義帕累托 (GP) 分布是一種右偏態分布,使用形狀參數 k 和尺度參數 sigma 進行參數化。k 也稱為“尾部指數”參數,可以為正值、零或負值。

x = linspace(0,10,1000);
plot(x,gppdf(x,-.4,1),'-', x,gppdf(x,0,1),'-', x,gppdf(x,2,1),'-');
xlabel('x / sigma');
ylabel('Probability density');
legend({'k < 0' 'k = 0' 'k > 0'});

image-20210115221229210

其他代碼見鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM