
積分符號只有下限是表示該變量的空間范圍
記作x~f(x)
貝葉斯公式
乘法公式


AB同時發生的概率是 A發生的概率 乘 在A條件下B發生的概率。
反之,也是 B發生的概率 乘 在B發生條件下A發生的概率。
三個球:紅,紅,藍
1 , 2 ,1
摸到既是1又是紅的球 的概率
全概率公式

可以理解為每一個都使用了乘法公式,B發生的概率即是Ai,B同時發生的概率 相加

貝葉斯公式

該公式就是求在B發生的條件下Ai發生的概率:即Ai,B同時發生的概率(通過乘法公式) 比上 B發生的概率(通過全概率公式可得分母的式子)
最大后驗概率估計(MAP)
通過貝葉斯公式是求何種Ai 在B發生的條件下 發生的概率最大。
等價於求 是哪種Ai“最”可能導致B的發生
先驗概率就是Ai發生的概率
后驗概率就是在B發生的條件下Ai發生的概率(其中B是數據樣本)
似然是在Ai發生條件下B發生的概率
貝葉斯估計與貝葉斯預測
貝葉斯估計就是 求
后驗概率的分布
貝葉斯預測 就是根據貝葉斯估計所得的后驗概率分布 作為求出預測值的參數 去計算在現有樣本的情況(條件)下 繼續出現事件x的概率情況/預測x會出現的概率。
貝葉斯預測就是 利用貝葉斯估計所得的概率分布 作為求出預測值的參數 去計算在現有樣本的情況(條件)下 繼續出現事件x的概率情況/預測x會出現的概率。
原理上和貝葉斯估計沒有任何關系,只是利用貝葉斯估計的值能更簡單求出貝葉斯預測的值。
最大似然估計(MLE)
模擬問題:
紅、綠、藍、黑四種顏色的球
四種顏色的球出現的概率是關於參數m的函數,記作fx1(m),fx2(m),fx3(m),fx4(m)
樣本:第一次抽到紅色,第二次抽到藍色,第三次抽到紅色
這個樣本出現的概率就是 G(M)=fx1(m)·fx3(m)·fx1(m)
公式理解:就是在給定m的概率情況下x樣本發生的概率求最大似然估計
最大似然估計就是求 當m取何值時 G(M)能取最大值。
也就是何種有關m的概率分布最可能導致出現在的樣本。
引入
是一種 參數估計
例子一
總體:
100個球:黑球θ個,白球100-θ個,
樣本:
一個黑球
估計:
估計θ是99
例子二
總體:
學生:8:2 會8,不會2 或者不會2,會8
樣本:
提問3個,全不會
估計
學生會8成,不會2成
P大的事件比P小的事件更容易發生
樣本固定,事件A已經發生,
將使事件A發生的概率最大的參數值作為的估計值
目的/意義:
總體中的某個參數或者某些參數未知,通過樣本進行對參數的估計。
例子
總體X是個泊松分布(x1,...,xn)為樣本,求λ的極大似然估計
總體的概率函數為:

每天服務器遭受的攻擊次數為樣本:根據poisson分布,將平均遭受攻擊的次數帶入,就能求得遭受n次攻擊的概率。
該概率是一個關於λ的函數
例如:推測在一天中服務器遭受攻擊的次數為3次的概率,則需要將x=3帶入poisson分布的概率函數,得到:

從中發現概率p中含有未知參數λ,也就是說每一個樣本發生的概率都是一個關於λ的函數
從此可以推測出一天當中服務次遭受n次攻擊的概率,為poisson分布帶入1~n的概率和。
極大似然估計就是求當參數λ為何值時,能使總體樣本發生的概率(也就是一天當中遭受幾次攻擊的概率)最大
泊松分布Poisson
滿足條件
一個場景可以用泊松分布來描述, 需要滿足三個條件
-
均值穩定. 即 λ在任意划定的單位時間長度內,應該是一個穩定的數值.
-
事件獨立. 事件之間相互獨立, 若相關, 則泊松分布失效.
-
在一個極小的時間內, 事件發生的次數應趨近於0. 比如說 產房平均 1 小時出生 3 個寶寶, 那我任意指定 1ms, 那這 1ms 內出生的寶寶數趨近於 0 .

1、寫出總體的概率或密度函數
概率是離散的,密度是連續的
2、則λ的似然函數為
L(λ)=

3、兩邊取ln
4、對λ求導,令導數為0

例2

貝葉斯和極大似然估計的區別
案例:
極大似然估計
總體是:上海,北京,杭州,廣州
來自上海,北京,杭州,廣州攻擊的概率是關於城市名的函數 f(城市名)或者p(城市名),其中,還有未知變量λ。例如f(城市名)=λ*(城市名)2+城市名,對應f(x)=ax2+x
樣本是:x1=上海,x2=北京,x3=杭州,x4=上海,x5=廣州
這個樣本發生的概率p=p(上海,λ)·p(北京,λ)·p(杭州,λ)·p(上海,λ)·p(廣州,λ)
該估計過程就是極大似然估計。
攻擊來自哪個城市的概率是關於未知參數k的函數,只要將每個城市帶k的概率乘在一起求使得該概率最大的k值就可解得一個 能估計一個來自哪個城市攻擊概率的函數
貝葉斯是
攻擊是來自哪個省的概率為,全國各省訪問中是攻擊的概率相加為分母,分子是訪問是攻擊和攻擊來自一個省的概率的交集
