PDF、PMF、CDF
1. 概念解釋
- PDF:概率密度函數(probability density function), 在數學中,連續型隨機變量的概率密度函數(在不至於混淆時可以簡稱為密度函數)是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。
- PMF:概率質量函數(probability mass function), 在概率論中,概率質量函數是離散隨機變量在各特定取值上的概率。
- CDF:累積分布函數 (cumulative distribution function),又叫分布函數,是概率密度函數的積分,能完整描述一個實隨機變量X的概率分布。
2. 數學表示
2.1 PDF
如果XX是連續型隨機變量,定義概率密度函數為$f_X(x)$,用PDF在某一區間上的積分來刻畫隨機變量落在這個區間中的概率,即

2.2 PMF
如果XX離散型隨機變量,定義概率質量函數為$f_X(x)$,PMF其實就是高中所學的離散型隨機變量的分布律,即

2.3 CDF
不管是什么類型(連續/離散/其他)的隨機變量,都可以定義它的累積分布函數,有時簡稱為分布函數。
-
對於連續型隨機變量,顯然有:
那么CDF就是PDF的積分,PDF就是CDF的導數。
-
對於離散型隨機變量,其CDF是分段函數,比如舉例中的擲硬幣隨機變量,它的CDF為:
Pareto(帕累托)分布
Survial function 生成函數
The survival function is also known as the survivor function[2] or reliability function.[3]
又稱 complementary cumulative distribution function.

其實就是1-CDF
Pareto distribution

- 注意形狀參數$\alpha$必須是正的!



Generalized Pareto distribution
https://en.wikipedia.org/wiki/Generalized_Pareto_distribution

- 注意:形狀參數(或者稱為尾部指數)$\xi\in(-\infty,+\infty)$!
因此,GP 分布是指數分布 (k = 0) 和帕累托分布 (k>0) 的廣義化。GP 將這兩個分布包括在更大的族中,因此可以實現連續的形狀范圍。
Matlab實現
利用廣義帕累托分布對尾數據建模
廣義帕累托 (GP) 分布是一種右偏態分布,使用形狀參數 k 和尺度參數 sigma 進行參數化。k 也稱為“尾部指數”參數,可以為正值、零或負值。
x = linspace(0,10,1000);
plot(x,gppdf(x,-.4,1),'-', x,gppdf(x,0,1),'-', x,gppdf(x,2,1),'-');
xlabel('x / sigma');
ylabel('Probability density');
legend({'k < 0' 'k = 0' 'k > 0'});
其他代碼見鏈接!