上周分享會,小伙伴提到了“極大似然估計”,發現隔了一年多,竟然對這些基本的機器學習知識毫無准確的概念了。
先驗分布:根據一般的經驗認為隨機變量應該滿足的分布,eg:根據往年的氣候經驗(經驗),推測下雨(結果)的概率即為先驗概率;
后驗分布:通過當前訓練數據修正的隨機變量的分布,比先驗分布更符合當前數據,eg: 有烏雲(原因、觀測數據)的時候下雨(結果)的概率即為后驗概率;
似然估計:已知訓練數據,給定了模型,通過讓似然性極大化估計模型參數的一種方法,eg: 下雨(結果)的時候有烏雲(觀測數據、原因等)的概率即為似然概率;
后驗分布往往是基於先驗分布和極大似然估計計算出來的。
貝葉斯公式(后驗概率公式、逆概率公式):
Θ:決定數據分布的參數(原因)
x: 觀察得到的數據(結果)
p(x): 證據因子evidence
p(Θ): 先驗概率
p(Θ|x): 后驗概率
p(x|Θ): 似然概率
后驗概率=似然函數×先驗概率/證據因子,證據因子(Evidence,也被稱為歸一化常數)可僅看成一個權值因子,以保證各類別的后驗概率總和為1從而滿足概率條件。
備注:
聯合概率:P(AB)=P(A)P(B|A)=P(B)P(A|B)
條件概率:P(A|B)=P(AB)|P(B)
貝葉斯公式:P(B|A)=P(A|B)P(B)/P(A)