from: https://blog.csdn.net/yangang908/article/details/62215209
and : https://my.oschina.net/xiaoluobutou/blog/688245
先驗概率:
事件發生前的預判概率。可以是基於歷史數據的統計,可以由背景常識得出,也可以是人的主觀觀點給出。一般都是單獨事件概率,如P(x),P(y)。
后驗概率:
事件發生后求的反向條件概率;或者說,基於先驗概率求得的反向條件概率。概率形式與條件概率相同。
條件概率:
一個事件發生后另一個事件發生的概率。一般的形式為P(x|y)表示y發生的條件下x發生的概率。
貝葉斯公式:
P(y|x) = ( P(x|y) * P(y) ) / P(x)
這里:
P(y|x) 是后驗概率,一般是我們求解的目標。
P(x|y) 是條件概率,又叫似然概率,一般是通過歷史數據統計得到。一般不把它叫做先驗概率,但從定義上也符合先驗定義。
P(y) 是先驗概率,一般都是人主觀給出的。貝葉斯中的先驗概率一般特指它。
P(x) 其實也是先驗概率,只是在貝葉斯的很多應用中不重要(因為只要最大后驗不求絕對值),需要時往往用全概率公式計算得到。
實例:假設y是文章種類,是一個枚舉值;x是向量,表示文章中各個單詞的出現次數。
在擁有訓練集的情況下,顯然除了后驗概率P(y|x)中的x來自一篇新文章無法得到,p(x),p(y),p(x|y)都是可以在抽樣集合上統計出的。
最大似然理論:
認為P(x|y)最大的類別y,就是當前文檔所屬類別。即Max P(x|y) = Max p(x1|y)*p(x2|y)*...p(xn|y), for all y
貝葉斯理論:
認為需要增加先驗概率p(y),因為有可能某個y是很稀有的類別幾千年才看見一次,即使P(x|y)很高,也很可能不是它。
所以y = Max P(x|y) * P(y), 其中p(y)一般是數據集里統計出來的。
從上例來講,貝葉斯理論顯然更合理一些;但實際中很多先驗概率是拍腦袋得出的(不准),有些甚至是為了方便求解方便生造出來的(硬湊),那有先驗又有什么好處呢?一般攻擊貝葉斯都在於這一點。
條件概率公式:
全概率公式:
貝葉斯公式:
給定某系統的若干樣本X,計算該系統的參數,即
P(θ) 沒有數據支持下,θ發生的概率:先驗概率
P(θ|x) 在數據X的支持下,θ發生的概率:后驗概率,貝葉斯公式也稱為后驗公式
p(x|θ) 給定某參數θ的概率分布:似然函數
理解:
1) 教科書上的解釋總是太繞了,有一個很好例子:在沒有給任何信息的前提下,讓猜某人的姓氏。為了猜對概率大一些,你可能會先百度一下中國人口的姓氏排名,發現李姓是中國第一大姓,約占全國漢族人口的7.94%,所以你可能會猜李。也就是李姓出現在的概率最大。
此時李姓的概率即為 先驗概率
2) 接着有人給提供了一些跟這個人相關信息,比如:知道他是來自”趙家村“,那這個時候你就知道,他姓趙的概率比較大,就會猜姓趙。
此時P(姓趙|趙家村)這個條件概率,即為 后驗概率
3) 似然函數:
由貝葉斯公式帶來的思考:
給定某些樣本A,在這些樣本中計算結論B1,B2....Bi出現的概率,即P(Bi|A),拿概率最大的那個結論B做為樣本A最終的結論,也就是說我要求max P(Bi|A),由貝葉斯公式:
max P(Bi|A) = max P(A|Bi)P(Bi)/P(A)
其中 P(A) 即
又因為樣本A給定,對於B1,B2....Bi來說P(A)是相同的,可以把分母去掉:
max P(Bi|A) => max P(A|Bi)P(Bi)
若這些結論B1,B2....Bi的先驗概率相等(或者近似),則可以得到:
max P(Bi|A) => max P(A|Bi)P(Bi)=> max P(A|Bi)
最后得到結論,我們求maxP(Bi|A),實際跟求max P(A|Bi)是等價的 而P(A|Bi)就是似然函數