交叉熵損失函數原理詳解
一、總結
一句話總結:
1、叉熵損失函數(CrossEntropy Loss):分類問題中經常使用的一種損失函數
2、交叉熵能夠衡量同一個隨機變量中的兩個不同概率分布的差異程度,在機器學習中就表示為真實概率分布與預測概率分布之間的差異。交叉熵的值越小,模型預測效果就越好。
3、交叉熵在分類問題中常常與softmax是標配,softmax將輸出的結果進行處理,使其多個分類的預測值和為1,再通過交叉熵來計算損失。
1、交叉熵簡介?
交叉熵是信息論中的一個重要概念,主要用於度量兩個概率分布間的差異性
2、信息的實質與例子(I(x)=-log(P(x)))?
1、信息奠基人香農(Shannon)認為【“信息是用來消除隨機不確定性的東西”】,也就是說衡量信息量的大小就是看這個信息消除不確定性的程度。
2、“太陽從東邊升起”,這條信息並沒有減少不確定性,因為太陽肯定是從東邊升起的,這是一句廢話,信息量為0。
3、“2018年中國隊成功進入世界杯”,從直覺上來看,這句話具有很大的信息量。因為中國隊進入世界杯的不確定性因素很大,而這句話消除了進入世界杯的不確定性,所以按照定義,這句話的信息量很大。
4、根據上述可總結如下:信息量的大小與信息發生的概率成反比。概率越大,信息量越小。概率越小,信息量越大。
3、信息熵是什么?
a、信息熵也被稱為熵,用來表示所有信息量的期望。
b、期望是試驗中每次可能結果的概率乘以其結果的總和。
c、信息量的熵可表示為:Σ((-log(P(x))*P(x))
4、為什么0-1分布問題可以用信息熵?
A、對於0-1分布的問題,由於其結果只用兩種情況,是或不是,設某一件事情發生的概率為P(x),則另一件事情發生的概率為1−P(x),
B、所以對於0-1分布的問題,計算熵的公式可以簡化如下:(-log(P(x))*P(x) + (-log(1-P(x))*(1-P(x))
5、交叉熵在單分類問題中的應用?
在線性回歸問題中,常常使用MSE(Mean Squared Error)作為loss函數,而在分類問題中常常使用交叉熵作為loss函數。
二、交叉熵損失函數原理詳解
轉自或參考:交叉熵損失函數原理詳解
https://blog.csdn.net/b1055077005/article/details/100152102
之前在代碼中經常看見交叉熵損失函數(CrossEntropy Loss),只知道它是分類問題中經常使用的一種損失函數,對於其內部的原理總是模模糊糊,而且一般使用交叉熵作為損失函數時,在模型的輸出層總會接一個softmax函數,至於為什么要怎么做也是不懂,所以專門花了一些時間打算從原理入手,搞懂它,故在此寫一篇博客進行總結,以便以后翻閱。
交叉熵簡介
交叉熵是信息論中的一個重要概念,主要用於度量兩個概率分布間的差異性,要理解交叉熵,需要先了解下面幾個概念。
信息量
信息奠基人香農(Shannon)認為“信息是用來消除隨機不確定性的東西”,也就是說衡量信息量的大小就是看這個信息消除不確定性的程度。
“太陽從東邊升起”,這條信息並沒有減少不確定性,因為太陽肯定是從東邊升起的,這是一句廢話,信息量為0。
”2018年中國隊成功進入世界杯“,從直覺上來看,這句話具有很大的信息量。因為中國隊進入世界杯的不確定性因素很大,而這句話消除了進入世界杯的不確定性,所以按照定義,這句話的信息量很大。
根據上述可總結如下:信息量的大小與信息發生的概率成反比。概率越大,信息量越小。概率越小,信息量越大。
信息熵
信息熵也被稱為熵,用來表示所有信息量的期望。
期望是試驗中每次可能結果的概率乘以其結果的總和。
所以信息量的熵可表示為:(這里的XXX是一個離散型隨機變量)
相對熵(KL散度)

交叉熵

交叉熵在單分類問題中的應用

總結:
-
交叉熵能夠衡量同一個隨機變量中的兩個不同概率分布的差異程度,在機器學習中就表示為真實概率分布與預測概率分布之間的差異。交叉熵的值越小,模型預測效果就越好。
-
交叉熵在分類問題中常常與softmax是標配,softmax將輸出的結果進行處理,使其多個分類的預測值和為1,再通過交叉熵來計算損失。
參考:
https://blog.csdn.net/tsyccnh/article/details/79163834