交叉熵損失函數原理詳解

本文轉載自查看原文 2020-07-21 15:08 667 機器學習/ 4_機器學習書籍及雜（西瓜書、機器學習實戰、統計學習方法、百面機器學習等）

交叉熵損失函數原理詳解

一、總結

一句話總結：

1、叉熵損失函數(CrossEntropy Loss)：分類問題中經常使用的一種損失函數

2、交叉熵能夠衡量同一個隨機變量中的兩個不同概率分布的差異程度，在機器學習中就表示為真實概率分布與預測概率分布之間的差異。交叉熵的值越小，模型預測效果就越好。

3、交叉熵在分類問題中常常與softmax是標配，softmax將輸出的結果進行處理，使其多個分類的預測值和為1，再通過交叉熵來計算損失。

1、交叉熵簡介？

交叉熵是信息論中的一個重要概念，主要用於度量兩個概率分布間的差異性

2、信息的實質與例子（I(x)=-log(P(x))）？

1、信息奠基人香農（Shannon）認為【“信息是用來消除隨機不確定性的東西”】，也就是說衡量信息量的大小就是看這個信息消除不確定性的程度。

2、“太陽從東邊升起”，這條信息並沒有減少不確定性，因為太陽肯定是從東邊升起的，這是一句廢話，信息量為0。

3、“2018年中國隊成功進入世界杯”，從直覺上來看，這句話具有很大的信息量。因為中國隊進入世界杯的不確定性因素很大，而這句話消除了進入世界杯的不確定性，所以按照定義，這句話的信息量很大。

4、根據上述可總結如下：信息量的大小與信息發生的概率成反比。概率越大，信息量越小。概率越小，信息量越大。

3、信息熵是什么？

a、信息熵也被稱為熵，用來表示所有信息量的期望。

b、期望是試驗中每次可能結果的概率乘以其結果的總和。

c、信息量的熵可表示為：Σ((-log(P(x))*P(x))

4、為什么0-1分布問題可以用信息熵？

A、對於0-1分布的問題，由於其結果只用兩種情況，是或不是，設某一件事情發生的概率為P(x)，則另一件事情發生的概率為1−P(x)，

B、所以對於0-1分布的問題，計算熵的公式可以簡化如下：(-log(P(x))P(x) + (-log(1-P(x))(1-P(x))

5、交叉熵在單分類問題中的應用？

在線性回歸問題中，常常使用MSE(Mean Squared Error)作為loss函數，而在分類問題中常常使用交叉熵作為loss函數。

二、交叉熵損失函數原理詳解

轉自或參考：交叉熵損失函數原理詳解
https://blog.csdn.net/b1055077005/article/details/100152102

之前在代碼中經常看見交叉熵損失函數(CrossEntropy Loss)，只知道它是分類問題中經常使用的一種損失函數，對於其內部的原理總是模模糊糊，而且一般使用交叉熵作為損失函數時，在模型的輸出層總會接一個softmax函數，至於為什么要怎么做也是不懂，所以專門花了一些時間打算從原理入手，搞懂它，故在此寫一篇博客進行總結，以便以后翻閱。

交叉熵簡介

交叉熵是信息論中的一個重要概念，主要用於度量兩個概率分布間的差異性，要理解交叉熵，需要先了解下面幾個概念。

信息量

信息奠基人香農（Shannon）認為“信息是用來消除隨機不確定性的東西”，也就是說衡量信息量的大小就是看這個信息消除不確定性的程度。

“太陽從東邊升起”，這條信息並沒有減少不確定性，因為太陽肯定是從東邊升起的，這是一句廢話，信息量為0。

”2018年中國隊成功進入世界杯“，從直覺上來看，這句話具有很大的信息量。因為中國隊進入世界杯的不確定性因素很大，而這句話消除了進入世界杯的不確定性，所以按照定義，這句話的信息量很大。

根據上述可總結如下：信息量的大小與信息發生的概率成反比。概率越大，信息量越小。概率越小，信息量越大。

信息熵

信息熵也被稱為熵，用來表示所有信息量的期望。

期望是試驗中每次可能結果的概率乘以其結果的總和。

所以信息量的熵可表示為：（這里的 $X$ 是一個離散型隨機變量）

相對熵（KL散度）

交叉熵

交叉熵在單分類問題中的應用

總結：

交叉熵能夠衡量同一個隨機變量中的兩個不同概率分布的差異程度，在機器學習中就表示為真實概率分布與預測概率分布之間的差異。交叉熵的值越小，模型預測效果就越好。
交叉熵在分類問題中常常與softmax是標配，softmax將輸出的結果進行處理，使其多個分類的預測值和為1，再通過交叉熵來計算損失。

參考：

https://blog.csdn.net/tsyccnh/article/details/79163834

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 交叉熵損失函數交叉熵損失函數交叉熵損失函數損失函數：交叉熵交叉熵損失函數交叉熵--損失函數損失函數——均方誤差和交叉熵交叉熵損失函數和均方誤差損失函數損失函數｜交叉熵損失函數損失函數 - 交叉熵損失函數