指數分布(Exponential distribution)是一種連續型概率分布,可以用來表示獨立隨機事件發生的時間間隔的概率,比如嬰兒出生的時間間隔、旅客進入機場的時間間隔、打進客服中心電話的時間間隔、系統出現bug的時間間隔等等。
指數分布的由來
指數分布與泊松分布存在着聯系,它實際上可以由泊松分布推導而來。
泊松分布(概率統計15)中已經介紹過泊松分布,除了作為二項分布的近似外,當獨立事件發生的頻率固定時,泊松分布還可以刻畫算單位時間內事件發生次數的概率分布。
假設某個公司有一個帶傷上線的系統,每周平均的故障次數是2次,在下周不發生故障概率是多少?
每周平均的故障次數是2次,我們可以把“一周”看作單位時間,程序的故障率是λ=2,單位時間內發生故障的次數X符合泊松分布X~Po(λ)。在下周不發生故障的概率相當於發生了0個故障的概率:

現在要求計算兩周之內不發生故障的概率。我們用隨機變量T>2表示在2個單位時間內系統未發生故障的事件。在已知下周不發生故障的概率的情況下,P(T>2)計算起來很容易:

我們換一種思路。之前是把“一周”看作單位時間,單位時間內事件發生的頻率是λ=2。現在是變成了雙倍的單位時間,故障發生的頻率自然就變成2λ=4,這樣一來,兩周之內不發生故障的概率是:

結果和①相等。
時間是連續的,如果計算T=1.5周內不發生故障的概率,①就顯得無能為力了。但是②卻沒有任何問題,只要把單位時間內事件的頻率λ隨着時間T進行放縮就可以了:

將問題推廣到任意時間間隔:

反過來,故障在時間 t 之內發生的概率就是1-P(T>t):

現在把T換成X:

這里的F(x;λ)就是指數分布的分布函數,λ表示平均每單位時間內事件發生的次數,隨機變量X表示時間間隔。
F(x;λ)對應的密度函數是:

隨機變量X符合參數為λ>0的指數分布,記作X~E(λ)。
有些資料的寫法是:

僅僅是用θ代替了1/λ。


無記憶性
指數分布的一個重要特征是無記憶性(Memoryless Property,又稱遺失記憶性)。如果一個隨機變量呈指數分布X~E(λ),當s, t ≥0時:

先來看看這個等式為什么成立。

因此二者相等。
在前面的推導中可以看到:

累積概率對應面積,這個結論告訴我們,在指數分布下,P{X>s+t}和P{X>s}對應的面積的比值等於P{X>t}對應的面積和總體面積的比值:



理解無記憶性
我們已經知道指數分布可以用來表示獨立隨機事件發生的時間間隔的概率分布,在精密元件的可靠性研究中,指數分布通常用於描述對元件發生缺陷數測量結果。但是無記憶性又指出,元件在經過s時間的工作之后,它的壽命分布與原來還未工作時的壽命分布相同。這就好比有一個已經用了10年的燈泡和一個剛買的燈泡,現在我告訴你它倆在未來一年里報廢的概率相同,你信嗎?
一個著名的問題是“賭徒心理”。假設在賭桌上只能押大或小,某個賭徒已經連續押了10次小,但都輸了,於是賭徒認為,下次再出現小的可能性非常低,於是他想把兜里的錢全部押大,試圖翻本。

不妨幫助賭徒分析一下翻本的概率。
假設這是一個公平的賭場,大和小的概率都是0.5,用隨機變量X表示第一次出現“大”時所參與的賭局數,X符合幾何分布:

其中p表示出現“大”的概率,q表示出現“小”的概率。直到第11次才出現“大”的概率是0.511,這是個非常小的數值,可見這個賭徒確實運氣不佳。
接着分析,用X>10表示連續10次以上沒出現“大”的事件,以此為前提,下一次(第11次)出現大的概率是:

在連續押小輸掉10次的條件下,下一次出現“大”,和第1次就出現“大”的概率相同。對於賭徒來說,每一局都是全新的,下一次贏錢的概率和之前的輸贏沒有任何關系,這就是所謂的無記憶性。
指數分布與幾何分布類似,只不過把離散隨型機變量變成了連續型。
實際上生活中有很多無記憶性的例子,比如車牌搖號。對於參與搖號的人來說,在每一次搖號中搖中的概率都是相等的。有人說不對啊,明明告訴我搖中的概率是1%,100次里面怎么還不能中一回嗎?所謂的1%搖中率,是在大數定律下才起作用,而現實生活中我們面對的往往是“小數”。可以用程序模擬一下:
1 import numpy as np 2 3 np.random.seed(41) 4 for i in range(1, 11, 1): 5 m = 100 * i # 試驗次數 6 nums = np.random.randint(1, 101, 200) # 從1~100中隨機選擇m個數字 7 p_50_size = nums[nums == 50].size # m個數字中出現50的次數 8 print('一共參與搖號{}次,搖中{}次,概率{}'.format(m, p_50_size, p_50_size/m))
結果顯示:
一共參與100次搖號,搖中0次,概率0.0
一共參與200次搖號,搖中0次,概率0.0
一共參與300次搖號,搖中3次,概率0.01
一共參與400次搖號,搖中3次,概率0.0075
一共參與500次搖號,搖中2次,概率0.004
一共參與600次搖號,搖中3次,概率0.005
一共參與700次搖號,搖中4次,概率0.005714285714285714
一共參與800次搖號,搖中3次,概率0.00375
一共參與900次搖號,搖中3次,概率0.0033333333333333335
一共參與1000次搖號,搖中5次,概率0.005
每月搖號一次,一個人窮盡一生也滿足不了“大數”,搖號還真是件沒譜的事。

因為無記憶性的關系,有人戲稱服從指數分布的隨機變量就像傳說中金魚只有7秒鍾記憶一樣,是“永遠年輕的”。也正是這一點限制了指數分布的應用,因為指數分布忽略了損耗。但是,指數分布仍然可以近似地作為高可靠性的復雜部件、機器或系統的失效分布模型,特別是在部件或機器的整機試驗中得到廣泛的應用。

至於燈泡的壽命是否符合指數分布,其實我也不知道。也許現在制作工藝提升了,燈泡已經是具有高可靠性的產品,燈泡明天是否還能正常工作,完全取決於是否遭到了外力的破壞,日常損耗所起到的作用可以忽略不計,這種情況下,燈泡的使用壽命才有可能符合指數分布。
關於保修期的問題
冰箱平均10年出現一次大的故障,求:
(1)冰箱使用15年后還沒有出現大故障的比例。
(2)如果廠家想提供大故障免費維修的質保,試確定保修1~5年內,需要維修的冰箱的占比。
冰箱平均10年出現大的故障,可見故障率不高,可以認為故障次數服從泊松分布,單位時間是1年,λ=0.1。
(1)根據指數分布:

冰箱使用15年后還沒有出現大故障的比例約等於22.3%。
(2)
1 from scipy import stats 2 3 lam = 0.1 4 for i in range(1, 6): 5 print(stats.expon.cdf(i, scale=1/lam))

上表告訴了我們冰箱的保修期一般都是2年以內的原因,廠家為了把上門修理的次數控制在20%以內,一般選擇保修2年。
期望和方差
對於X~E(λ)的指數分布來說,它的期望是1/λ,方差是1/λ2。
先來看期望:

根據分部積分:

再來看方差:

繼續利用分部積分:

將u=λx代入④:

將在E[X]中求得的③代入⑤中:

最終:

出處:微信公眾號 "我是8位的"
本文以學習、研究和分享為主,如需轉載,請聯系本人,標明作者和出處,非商業用途!
掃描二維碼關注作者公眾號“我是8位的”

