數學基礎 - 二項分布


 現在要開始講到分布了,當然首先要談的肯定是二項分布,在此之前,讓我們先認識一下我們的前輩。

瑞士數學家雅克·伯努利(Jacques Bernoulli,1654~1705)首次研究獨立重復試驗(每次成功率為p)。在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作《推測術》。在書中,伯努利指出了如果這樣的試驗次數足夠大,那么成功次數所占的比例以概率1接近p。 雅克·伯努利是這個最著名的數學家庭的第一代。在后來的三代里,一共有8到12個伯努利,在概率論、統計學和數學上做出了傑出的基礎性貢獻。

 

伯努利分布 在一次試驗中,事件A出現的概率為p,不出現的概率為q=1-p。若以β記事件A出現的次數,則β僅取0,1兩值,相應的概率分布為:

[公式]

二項分布是指在只有兩個結果的n次獨立的伯努利試驗中,所期望的結果出現次數的概率。在單次試驗中,結果A出現的概率為p,結果B出現的概率為q,p+q=1。那么在n=10,即10次試驗中,結果A出現0次、1次、……、10次的概率各是多少呢?這樣的概率分布呈現出什么特征呢?這就是二項分布所研究的內容。

還是先舉個例子吧。

擲一枚硬幣(怎么老是硬幣?小學的時候就講了)出現正面和反面的概率各為0.5,那么擲1次,出現正面的概率肯定是0.5。擲2次、擲3次呢?

擲2次出現的結果有4個,正正、正反、反正、反反。因為p=0.5,所以每個結果出現的概率是0.5×0.5=0.25,那正面出現2次、1次、0次的概率分別是0.25、0.5、0.25。

擲3次出現的結果有8個,正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反。每個結果出現的概率是0.5×0.5×0.5=0.125,那正面出現3次、2次、1次、0次的概率分別是0.125、0.375、0.375、0.125。

統計學家們總結出了計算概率的一般公式

其中b表示二項分布的概率,n表示試驗次數,x表示出現某個結果的次數。是組合,表示在n次試驗中出現x次結果的可能的次數。如10次試驗,出現0次正面的次數有1次,出現1次正面的次數有10次,……,出現5次正面的次數有252次,等等。其計算也有一個通式:

也可以寫成:

如果這個公式你算不好,就查下面的楊輝三角形吧,每一行的數字是上一行相鄰兩個數字的和。在下圖中,每一行表達的是[公式]展開式的各項系數,下圖列出了n=0,1,…,16時展開式中各項的系數。

需要特別提醒的是:二項分布是建立在有放回抽樣的基礎上的,也就是抽出一個樣品測量或處理完后再放回去,然后抽下一個。在實際的工作中通常我們很少會這樣抽,一般都屬於無放回抽樣,這時候需要用超幾何分布來計算概率。在一般的教課書上都會要求,當總體的容量N不大時,要用超幾何分布來計算,如果N很大而n很小,則可以用二項分布來近似計算,也就是可以將無放回抽樣近似看出有放回抽樣。至於n要小到什么程度,有的書上說n/N小於0.1就可以了,有的書上則要求小於0.05。

上面講得有點干,下面舉個例子。

在很多工廠里,通常都會跟零件供應商約定供貨合格率,並對每批供貨進行抽檢,就是所謂的IQC。設約定的合格品率為97%,如果每批隨機抽10件,那么抽出1件不合格時,整批的零件的合格率是不是達不到97%?

根據題意,p=0.97,n=10,x=9,據此算出10個樣品中有9個合格品的概率是

反過來,如果考慮不合格品率,p=0.03,n=10,x= 1,據此計算出10個樣品中有1個不合格品的概率是

結果是一樣的。由此可見,10個樣品中有1個不合格品的概率還是很大的,因此不能說這批零件不合格。

那抽出2個不合格的呢?同樣可以算出

概率非常小,而且抽出超過2個以上不合格品的概率會更小,因此如果10個樣品中有2個或以上的不合格品,則整批的零件合格率肯定達不到97%,可以整批退貨。

如果約定的合格率是99.5%,則出現0個、1個、2個不合格品的概率分別為0.951、0.0478、0.001,如此10個只要抽出1個不合格品就可以整批退貨了。

有人會問,到底應該抽多少樣呢?這在GB/T2828里有明確規定,限於篇幅,這里只介紹其中一種最簡單的應用原理,具體應用時大家可以去查國標。

假設你與供應商約定的接收合格率是99%,即AQL(接收質量限)=0.01,本批的總數量是1000只,只做一般性的檢驗,查國標可得抽樣量為80;Ac=2,即抽到2個及以下不合格品可接收該批;Re=3,即抽到3個及以上不合格品則拒絕接收。

限於人力物力,你可能無法抽這么多的樣,根據該供應商以往的表現,你制定了兩種抽樣方案,一種是抽20個,不合格品為0接收,大於0退回;另一種是抽50個,不合格品不超過1則接收,大於1則退回。我們來看看,如果這批來料合格率只有98%,按照這兩種抽樣方案以及國標的方案,你接收的概率有多大。為了方便我們用Excel來算。

方案一

 

方案二

 

國標方案

這幾種方案接收的概率都不小,這就是抽樣檢驗帶來的風險。如果實際批合格率低於約定合格率,仍被接收的風險屬於使用者風險。

反過來,如果批合格率高於約定合格率,如99.5%,那有多大的可能性拒絕該批呢?我們也可以用二項分布來計算。

我們可以看到,即使實際合格率高於約定,仍然存在拒收的風險,雖然這個風險並不大,通常這一類的風險叫做生產者風險。

根據不同的批合格率,可以計算出每一種抽樣方案的兩類風險,畫出OC曲線。用方案一畫出的OC曲線如下:

 

圖中橫坐標為實際的批不合格率,縱坐標為接收概率,曲線下方為接收概率,上方為拒收概率,可以看出即使來料不合格率遠高於約定,接收的概率還是很大的。黃色的矩形框稱為理想曲線,理想的情況下,批不合格率低於約定肯定接收,而超過約定則肯定拒收,但這種理想曲線是不可能達到的,只能盡可能接近。

下面我們再看看三種抽樣方案的OC曲線之間的對比。

 

三種方案各有優劣勢,但國標方案的下降趨勢要比另外兩種要快,更接近理想曲線。當然你也可以試一下其它的抽樣方案,有可能會找到更好的。

確定抽樣方案不是靠拍腦袋來決定的,需要對抽樣方案進行比較深入的研究,找到最恰當的抽樣方案。

另外,關於抽樣問題要具體問題具體分析,如果供應商質量控制能力很強,可以放寬檢驗甚至免檢(可以將此作為供應商的激勵措施,這也是我在客戶那里極力推動的,雖然這項政策最終是依據國內一個質量大腕的建議制定的,我仍然覺得非常高興);如果供應商質量控制能力很差,就需要加嚴檢驗。有時要控制誤檢,有時要控制漏檢,這要看成本與收益。我曾經服務的一家客戶對一個零件專門配10個人進行全檢,就是為了防止漏檢,因為必須要100%合格,否則因為漏檢造成客戶的索賠是承受不起的。

本文所描述的僅僅是國標中最基本、最簡單的應用,當遇到各種復雜的情況時,要想到去參考國標。

最后再說一下二項分布的正態近似。在大樣本的情況下,二項分布的計算會很麻煩,這時可以采用正態分別來近似,其條件是np和n(1-p)都大於5。采用正態分布的參數為:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM