概率函數 vs 似然函數 : p(x|θ) (概率函數是θ,已知,求x的概率。似然函數是x已知,求θ)
分布是p(x|θ)的總體樣本中抽取到這100個樣本的概率,也就是樣本集X中各個樣本的聯合概率
最大似然估計為:
為了方便計算,對聯合概率取對數
求最大似然函數估計值的一般步驟:
(1)寫出似然函數;
(2)對似然函數取對數,並整理;
(3)求導數,令導數為0,得到似然方程;
(4)解似然方程,得到的參數即為所求;
最大似然函數推導交叉熵:
二分類問題二分類模型可認為符合二項分布,設X={0,1}, 為樣品的真實類別。則有
因此有
對於m次觀察結果,則有
寫出似然函數
取對數似然,有
當 取得最大時,則似然函數也取得最大。
通常我們做二分類時,最后通過sigmoid激活函數輸出,其輸出值即是 。
因此將上式化簡,即是binary cross entropy形式:
多分類問題多分類問題將二項分布擴展到多項分布,設有n個類別,則有
同樣的,對於m個樣本,寫出其對數似然
其中 即是cross entropy,當其取得最小時,似然函數取得最大。