一看題目就知道本文內容較多,但因為放在一起討論才能互相比較理解異同。本文主要討論重尾分布,長尾分布,肥尾分布三者的聯系,同時順帶討論了一下 Random walk 中的 Lévy flight 和 Brownian motion。主要內容參考自 Wikipedia 和 Rick Wicklin 的博文 Fat-tailed and long-tailed distributions。其實我們討論重尾長尾肥尾,數學上並沒有一個明確的對於尾(tail)的定義,但這也並不妨礙我們進行一些推導和分析。
重尾分布(Heavy-tailed distribution)
從博文 概率論基礎概念總結 Basic Concepts in Statistics 中我們了解到指數分布在 x→∞ 的時候是以指數的速度趨近於0,那么以指數分布為分界線,我們把 x→∞ 時下降速度更快的稱為 Thin-tailed distribution (好像還沒有中文翻譯),比如正態分布。也就是說,在遠離峰值的尾部區域,時間發生的概率更低一些。所以正態分布用來對那些主流事件發生較多,非主流事件發生較少的情況進行建模更為合適。與此相對的,把 x→∞ 時下降速度慢於指數分布的成為重尾分布(Heavy-tailed distribution)。其數學定義為:
其中,是所謂的尾分布函數。
長尾分布(Long-tailed distribution)
長尾分布,或者說長尾理論是一個與互聯網發展分不開的概念。說到這里就不得不先提一下傳統商業中的帕累托法則(Pareto principle),又稱為二八定律。比如80%的財富集中在20%的人手里,圖書館里20%的書可以滿足80%的顧客。於是大家往往只關注在PDF圖中最左面的20%的顧客,以期滿足80%,如下圖綠色的部分,來實現效益的最大化。

(注:圖片來源 Wikipedia)
但在一些網上零售業中,如Amazon和Netflix,數據表明右端黃色的尾巴雖然平均需求小但是由於數量巨大,導致其總的營銷收益甚至超過主流的商品。這一發現似乎對商業界的觸動極大,也說明了正確建模的重要性。如果用指數分布進行建模,這些遠端的需求也許就會被忽視;而用長尾分布進行建模就可以發現這些新的需求從而帶來效益的提高。
長尾分布的數學定義為:
就是說,當 x 很大的時候,很有可能 x 實際上更大。另一個等效的定義是:
這兩個定義帶給人的一個有趣的直覺是,當一個長尾分布的變量超過一個閾值時,那么很有可能它也會超過一個更高的閾值。也就是說,如果你發現情況很糟糕了,那么情況很有可能比你想象的更糟糕。
肥尾分布(Fat-tailed distribution)
從建模的角度來看,肥尾分布就是針對那些罕見事件雖然發生的概率低,但也必須要考慮到的情況。比如一個保險公司考慮災害的發生和保險的定價,那么像自然災害這種情況,如果不考慮的話就可能面臨真的發生時要賠很多的情況。因為正如肥尾分布的名字所體現的,即使在遠離峰值的遠端,那些罕見事件還是有相當的概率會發生的。雖然我們常常用正態分布對很多時間進行建模,但當一個事件的本質是肥尾分布而我們誤用了正態分布或指數分布時,就存在着對“小概率事件真的發生”這種危險的低估。據說美國股市歷史上的黑色星期五,千禧年的互聯網泡沫破滅,以及2008年前后的金融危機都是這種錯誤的真實案例(來源:Wikipedia, Fat-tailed distribution)。
肥尾分布的數學定義為:
也就是說,在 x 較大的地方,肥尾分布趨於0的速度是明顯慢於指數分布和正態分布的。柯西分布(Cauchy distribution)就是一類有名的肥尾分布。關於柯西分布,有幾個有趣的性質,首先它是穩定的(stable),也有着顯式的PDF和CDF,但是它的均值和方差確是無法定義的(undefined)。於是中心極限定理在這里就不適用了。如果試着做一下仿真,我們也可以發現,隨着實驗次數的增大,樣本的均值並不會逐漸收斂到某個值上,而出現這種情況的原因就是時不時出現的“異常大值”會明顯改變樣本的均值。關於柯西分布,穩定分布和正態分布的關系,以后可能會再寫博文來闡述。
隨機游走(Random walk)
所謂隨機游走,是統計學中一個很廣泛的概念,包含了很多內容。我沒能找到一個統一的數學模型來描述隨機游走,但大意就是在任意維度的空間里,一個點隨機地向任意方向前進隨機長度的距離,然后重復這一步驟的過程。有一個有名的醉漢回家問題就是一個典型的一維隨機游走的問題。
Lévy flight 是隨即游走的一種,它的每一步方向完全隨機而各向同性,但步長的分布是重尾分布(heavy-tailed)。Brownian motion(好像)也算是隨即游走的一種,它的步長的分布取正態分布。下面兩張圖來自Wikipedia,分別描述了1000次的基於柯西分布的 Lévy flight (左)和基於正態分布的Brownian motion(右)。


從這張圖上也可以比較明顯地看出 Lévy flight 出現大跨步的頻率確實要比 Brownian motion 要多一些。
已經有相當多的研究表明很多動物的移動模式可以用 Lévy flight 來描述。而近些年通過對人類的移動數據(通話記錄、出租車等)的挖掘,我們驚奇地發現人類的移動模式也和 Lévy flight 高度吻合[1]。也就是說,雖然我們每個人急功近利地去追求自己的目標,但在宏觀的尺度上,我們和山里的猴子沒什么區別[2]。
Ref.
[1] Brockmann, D., Hufnagel, L., & Geisel, T. (2006). The scaling laws of human travel. Nature. https://doi.org/10.1038/nature04292
[2] Rhee, I., Shin, M., Hong, S., Lee, K., & Chong, S. (2008). On the Levy-walk Nature of Human Mobility: Do Humans Walk like Monkeys? INFOCOM, 19(3), 630–643. https://doi.org/10.1109/TNET.2011.2120618