貝葉斯原理講解及對應機器學習算法


  轉載:

    https://zhuanlan.zhihu.com/p/22455079    

玩轉貝葉斯分析

開頭先開個玩笑, 有人說“信貝爺, 得永生” 你是否理解此中真意?

貝爺是這位, 生前是個神父。

貝葉斯分析是整個機器學習的基礎框架, 它的思想之深刻遠出一般人所認知的, 我們這里要從貝葉斯統計說起。

首先談概率,概率這件事大家都覺得自己很熟悉, 叫你說概率的定義 , 你卻不一定說的出,我們中學課本里說概率這個東西表述是一件事發生的頻率, 或者說這叫做客觀概率。

而貝葉斯框架下的概率理論確從另一個角度給我們展開了答案, 他說概率是我們個人的一個主觀概念, 表明我們對某個事物發生的相信程度。 如同Pierre Lapalace說的: Probability theory is nothing but common sense reduced to calculation. 這正是貝葉斯流派的核心,換句話說,它解決的是來自外部的信息與我們大腦內信念的交互關系。

兩種對於概率的解讀區別了頻率流派和貝葉斯流派。如果你不理解主觀概率就無法理解貝葉斯定律的核心思想。

我們來看一下貝葉斯統計的一個有趣的案例案例:假如你是一個女生, 你在你的老公書包里發現了一個別的女人的內褲那么他出軌的概率是多少。

 

圖:貝爺居然能解決家庭糾紛?

稍微熟悉這個問題的人對會知道做這個題目你要先考察基率,你要把這個問題分解為幾步考慮:

1,你老公在沒有任何概率情況下出軌的概率是多少? 如果他是個天生老實巴交的程序員或者風流倜儻的CEO, 那么顯然不該一視同仁

2,如果你老公出軌了, 那么他有一條內褲的概率是多少, 如果他沒出軌, 出現這個情況概率有多少? 想想一般人即使出軌也不會犯那么傻的錯誤, 會不會有沒出軌而出現內褲的狀況? 有沒有可能是某個暗戀你老公的人的陷害?

3, 根據1 和2求解最終問題,這才是擁有大學數學能力的你該做的分析。

 

在這里1其實就是先驗概率P(A),而2是條件概率P(B|A), 最終得到3后驗概率P(A|B)。這三種即是貝葉斯統計的三要素。

基於條件概率的貝葉斯定律數學方程極為簡單:

 

 

A即出軌, B是內褲出現, 你得到1,2,就可以根據公式算出根據根據內褲出現判斷出軌的概率。

先驗概率在貝葉斯統計中具有重要意義,首先先驗概率即我們在取得證據之前所指定的概率P(A), 這個值通常是根據我們之前的常識,帶有一定的主觀色彩。 就像剛剛說的出軌的問題, 你的先驗概率代表了你對你男人的信心。

有一個非常有趣的現象是如果我們的先驗概率審定為1或0(即肯定或否定某件事發生), 那么無論我們如何增加證據你也依然得到同樣的條件概率(此時P(A)=0 或 1 , P(A|B)= 0或1) 這告訴我們的第一個經驗就是不要過早的下論斷, 下了論斷你的預測也就無法進化了, 或者可以稱之為信仰。 你如果想讓你的認知進步,就要給各種假設留一點空間。

貝葉斯分析的思路對於由證據的積累來推測一個事物發生的概率具有重大作用, 它告訴我們當我們要預測一個事物, 我們需要的是首先根據已有的經驗和知識推斷一個先驗概率, 然后在新證據不斷積累的情況下調整這個概率。整個通過積累證據來得到一個事件發生概率的過程我們稱為貝葉斯分析。

貝葉斯分析中的三要素在不同的問題中通常側重點 , 很多時候我們都是在忽略先驗概率的作用,比如描述一個人很書呆子氣讓你判斷他是大學老師還是銷售員的經典案例(要看先驗大學老師還是銷售員哪個多啊)。 但是有時候我們也不理解條件概率, 比如著名的辛普森案, 為了證明辛普森有殺妻之罪,檢方說辛普森之前家暴,而辯護律師說,美國有400萬女性被丈夫或男友打過,而其中只有1432人被殺,概率是2800分之一。 這其實就是勿用了后驗概率, 這里的條件是被殺而且有家暴,而要推測的事件是凶手是男友(事實上概率高達90%),這才是貝葉斯分析的正當用法, 而辯護律師卻把完全在混淆條件與要驗證的假設。

 

 

圖:辛普森案都可以辱哦

理解貝葉斯分析最好的方法即圖像法, 這里的A的面積即先驗, 后驗是陰影占籃圈的百分比。

貝葉斯分析可以瞬間理解一些常用的理論, 如幸存者偏差,你發現一些沒讀過書的人很有錢,事實上是你發現就已經是幸存者了(對應上圖中小紅圈), 而死了的人(紅圈外的大部分面積)你都沒見到啊。還有陰謀論, 陰謀論的特點是條件很多很復雜, 但是條件一旦成立,結論幾乎成立, 你一旦考慮了先驗,這些條件成立本身即很困難, 陰謀論不攻自克。

注: 圖上紅圈和籃圈的面積, 很少我們在開始就知道, 這才是應用中的難點。

此處貝葉斯分析的框架也在教我們如何處理特例與一般常識的規律。如果你太注重特例(即完全不看先驗概率) 很有可能會誤把噪聲看做信號, 而奮不顧身的跳下去。 而如果恪守先驗概率, 就成為無視變化而墨守成規的人。其實只有貝葉斯流的人生存率會更高, 因為他們會重視特例, 但也不忘記書本的經驗,根據貝葉斯公式小心調整信心,甚至會主動設計實驗根據信號判斷假設,這就是我們下一步要講的。

 

貝葉斯決策:

在剛剛講到的貝葉斯統計分析的基礎上, 我們就可以引出一個更核心的概念, 貝葉斯決策。

貝葉斯決策主要包含四個部分: 數據(D), 假設(W),目標(O),決策(S)。 此處的數據即之前講到的證據, 假設是我們要驗證的事實, 目標是我們最終要取得優化的量, 決策時根據目標得到的最后行為。 與上一步貝葉斯分析增加的部分是目標和決策。假設在問題里如果是連續的往往以參數空間的形式表達。

然后我們可以按照如下步驟做:

第一, 理清因果鏈條, 哪個是假設, 哪個是證據 。

第二,給出所有可能假設 , 即假設空間

第三,給出先驗概率

第四,根據貝葉斯概率公式求解后驗概率, 得到假設空間的后驗概率分布

第五,利用后驗概率求解條件期望, 得到條件期望最大值對應的行為

 

貝葉斯決策如果一旦變成自動化的計算機算法, 它就是機器學習。 Ok, 此處應有掌聲,我們就用貝葉斯決策詮釋一個最簡單的機器學習分類算法- 朴素貝葉斯

假設給你一個人的身高和體重資料, 你不知道他的男女性別, 你可以通過我上述給出的貝葉斯決策機制解決這個問題: 首先, 此處我們的證據是身高和體重, 假設是男或女。 先驗概率是人口中的男女比例, 而我們需要掌握的條件概率是男性和女性的身高和體重分布, 這應該是很好掌握的信息。 然后我們可以根據貝葉斯公式求解后驗概率, 而此處我們要做的決策時男女, 目標是分類錯誤率最低, 決策即性別分類。

此處我們用到一個基本假設就是證據是互相獨立的, 使我們能夠求得更簡單的公式:

圖: 朴素貝葉斯,核心在於假設證據互相獨立。由此我們得到下列乘法公式(feature對應x)

 

用數學語言白表征這個問題, X特征向量,h把X映射成不同的分類, 我們要求得是P(y|x) 正確率最大的假設(y)。

 

事實上, 貝葉斯決策很少只涉及A和B, 而是內部包含非常關鍵的隱變量(參數),涉及我們對所研究事物的一些基本預設。比如下面這個特別簡單的例子:

拋擲硬幣, 一個硬幣被投擲10次9次朝上,那么根據頻率學派的觀點, 得到第11次投擲的概率不變為0.5 ,如果你回答了0.9, 你經常會被看成一個傻X。 其實不然, 天底下哪有一樣的硬幣呢? 那么問題來了,我設一個賭局, 一次正面向上你可以受益100, 反面懲罰150, 基於剛才的事實你要不要做這個局? 我們完全可以套用貝葉斯決策的理論來。 這里的一個重要的隱變量是每一次投擲硬幣的概率,這個數字按照經典頻率學派認定一定是0.5, 而按照貝葉斯學派的觀點, 需要把這個變量看成是未知的,具有一定先驗概率,之后嚴格按照貝葉斯公式計算新加入證據對先驗概率的影響。此處的先驗概率即你對硬幣向上0.5這件事的信念, 你越相信這個事實, 這個分布越尖,反之越寬廣。 我們用希臘字母theta來表征這個概率。整個決策表述如下:

 

公式的含義是你要用求解已知9次朝上1次朝下的時候求解你下一次投擲硬幣的期望收益, 並因此決策要不要賭。 中間要驗證的假設空間即每一次投擲為正的概率,我們依然以每次事件獨立和該概率不隨時間變化為基准(如果不是問題將無限復雜), 那么證據將根據上述公式改變假設空間的概率分布, 而最終的期望可以根據這個分布求出。 決策即使得這個期望最大的解。

注意此處先驗十分重要,因為它影響決策的結果, 而這又是一個很主觀的東西,如果你對0.5有絕對的信心, 那么你的就會非常尖,這個時候你需要得到大量偏離0.5的證據才能逐步糾偏。 對於書呆子樣的人, 估計會傾向給出一個比較尖銳的先驗分布,相信書里說的0.5而不賭, 而一些更加傾向於相信特例的人則會給出很平坦的先驗而更大的概率去賭。 最終后者發財和傾家盪產的幾率都比較高,而前者比較容易旱澇保收。當然, 在數據量超大,比如說1000次有900次為正的情況下, 我們幾乎不需要考慮先驗(自己去看公式),此時幾乎可以認定投擲的概率就是0.9.

 

圖:證據對信念發生作用的貝葉斯過程

 

貝葉斯網絡:

如果我們的貝葉斯決策中牽涉的證據更復雜呢? 如果這些證據之間不是簡單獨立而是互為因果呢? 這時候更為強大的工具-貝葉斯網絡就應運而生。世界上的事無一不處於復雜的聯系之中, 而貝葉斯網絡正是刻畫這種關聯的數學表述

構建一個貝葉斯網絡的關鍵方法是圖模型 , 構建一個圖模型我們需要把具有因果聯系的各個事件用箭頭連在一起。 下圖的例子是這樣一個事件, 我們看到草坪濕潤了, 那么我想推測此時天氣多雲的概率 ,因為導致草坪濕潤的原因有下雨或者灑水車在工作, 而這兩者又都和多雲有聯系,那么我們可以畫出如下圖形,按照貝葉斯概率公式逐級推出每個事件的概率。

貝葉斯網絡的特性是,當某點的一個證據出現, 整個網絡中事件的概率都變化, 所謂看到鏡中的一絲百發, 就改變你對人生中所有重大事件概率的推斷。

我們的大腦 : 有人說我們的大腦是一個貝葉斯網絡, 這句話又對又不對 ,我們的大腦學習的原理,的確正是一個新的證據逐步和內部信念耦合的過程,本質即貝葉斯網絡,但是我們大腦又是一個不完全的貝葉斯推斷機, 每個人都有一個頂層以三觀構建,底層逐步深入個個關於具體問題看法的貝葉斯網路, 但是我們卻很少有能夠通過一個證據更新整個網絡的能力,或者是我們吸收新證據的速度也往往十分緩慢,這是為什么我們經常具有自相矛盾的信念體系,經常一方面喊着人性解放一方面又崇拜偶像。梧桐一葉又有幾人知秋。

關於貝葉斯理論的應用,詳見貝葉斯理論在醫學數據分析中的應用 - 混沌巡洋艦 - 知乎專欄

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM