負對數似然(negative log-likelihood)

本文轉載自查看原文 2019-06-21 15:51 3124

negative log likelihood
文章目錄
negative log likelihood
似然函數(likelihood function)
Overview
Definition
離散型概率分布(Discrete probability distributions)
連續型概率分布(Continuous probability distributions)
最大似然估計(Maximum Likelihood Estimation,MLE)
對數似然(log likelihood)
負對數似然(negative log-likelihood)
Reference
似然函數(likelihood function)
Overview
在機器學習中，似然函數是一種關於模型中參數的函數。“似然性(likelihood)”和"概率(probability)"詞意相似，但在統計學中它們有着完全不同的含義：概率用於在已知參數的情況下，預測接下來的觀測結果；似然性用於根據一些觀測結果，估計給定模型的參數可能值。

Probability is used to describe the plausibility of some data, given a value for the parameter. Likelihood is used to describe the plausibility of a value for the parameter, given some data.

—from wikipedia[3] ^[3]
[
3]

其數學形式表示為：

假設X XX是觀測結果序列，它的概率分布fx f_{x}f
x

依賴於參數θ \thetaθ，則似然函數表示為

L(θ∣x)=fθ(x)=Pθ(X=x) L(\theta|x)=f_{\theta}(x)=P_{\theta}(X=x)
L(θ∣x)=f
θ

(x)=P
θ

(X=x)

Definition
似然函數針對**離散型概率分布(Discrete probability distributions)和連續型概率分布(Continuous probability distributions)**的定義通常不同.

離散型概率分布(Discrete probability distributions)
假設X XX是離散隨機變量,其概率質量函數p pp依賴於參數θ \thetaθ,則有

L(θ∣x)=pθ(x)=Pθ(X=x) L(\theta|x)=p_{\theta}(x)=P_{\theta}(X=x)
L(θ∣x)=p
θ

(x)=P
θ

(X=x)

L(θ∣x) L(\theta|x)L(θ∣x)為參數θ \thetaθ的似然函數,x xx為隨機變量X XX的輸出.

Sometimes the probability of "the value of for the parameter value " is written as P(X = x | θ) or P(X = x; θ).

連續型概率分布(Continuous probability distributions)
假設X XX是連續概率分布的隨機變量,其密度函數(density function)f ff依賴於參數θ \thetaθ,則有

L(θ∣x)=fθ(x) L(\theta|x)=f_{\theta}(x)
L(θ∣x)=f
θ

(x)

最大似然估計(Maximum Likelihood Estimation,MLE)
假設每個觀測結果x xx是獨立同分布的，通過似然函數L(θ∣x) L(\theta|x)L(θ∣x)求使觀測結果X XX發生的概率最大的參數θ \thetaθ，即argmaxθf(X;θ) argmax_{\theta}f(X;\theta)argmax
θ

f(X;θ) 。

在“模型已定，參數未知”的情況下，使用最大似然估計算法學習參數是比較普遍的。

對數似然(log likelihood)
由於對數函數具有單調遞增的特點，對數函數和似然函數具有同一個最大值點。取對數是為了方便計算極大似然估計，MLE中直接求導比價困難，通常先取對數再求導，找到極值點。

負對數似然(negative log-likelihood)
實踐中,softmax函數通常和負對數似然(negative log-likelihood,NLL)一起使用,這個損失函數非常有趣,如果我們將其與softmax的行為相關聯起來一起理解.首先,讓我們寫下我們的損失函數:

L(y)=−log(y) L(y)=-log(y)
L(y)=−log(y)

回想一下,當我們訓練一個模型時,我們渴望能夠找到使得損失函數最小的一組參數(在一個神經網絡中,參數指權重weights和偏移biases).

對數函數如下圖紅線所示：

由於是對概率分布求對數，概率p pp的值為0≤p≤1 0\leq{p}\leq10≤p≤1,取對數后為紅色線條在[0,1] [0,1][0,1]區間中的部分，再對其取負數，得到負對數似然函數如下圖所示：

我們希望得到的概率越大越好，因此概率越接近於1，則函數整體值越接近於0，即使得損失函數取到最小值。

最大似然估計的一般步驟如下:
(1) 寫出似然函數;
(2) 對似然函數取對數,得到對數似然函數;
(3) 求對數似然函數的關於參數組的偏導數,並令其為0,得到似然方程組;
(4) 解似然方程組,得到參數組的值.

Reference
[1]王海良,李卓恆,林旭鳴.智能問答與深度學習[M].北京:電子工業出版社,2019:19-20.

[2]Lj Miranda.Understanding softmax and the negative log-likelihood.2017.

[link]https://ljvmiranda921.github.io/notebook/2017/08/13/softmax-and-the-negative-log-likelihood/

[3]wikipedia-likelihood function

[link]https://en.wikipedia.org/wiki/Likelihood_function#Log-likelihood
---------------------
作者：不一樣的雅蘭醬
來源：CSDN
原文：https://blog.csdn.net/silver1225/article/details/88914652
版權聲明：本文為博主原創文章，轉載請附上博文鏈接！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 代價函數——二次代價函數、交叉熵(cross-entropy)、對數似然（log-likelihood cost）(04-1) 似然（likelihood）和概率（probability）的區別與聯系探究負邊距（negative margin）原理 Non-negative Matrix Factorization 非負矩陣分解均勻分布（uniform distribution）期望的最大似然估計（maximum likelihood estimation） Math.log()對數的妙用 tensorflow筆記3：CRF函數：tf.contrib.crf.crf_log_likelihood() PyTorch學習筆記——softmax和log_softmax的區別、CrossEntropyLoss() 與 NLLLoss() 的區別、log似然代價函數 Verilog寫一個對數計算模塊Log2(x) FPGA實現圖像的非線性變換：對數（log）變換