談談交叉熵損失函數

本文轉載自查看原文 2018-08-11 19:44 4653 深度學習

一.交叉熵損失函數形式

現在給出三種交叉熵損失函數的形式，來思考下分別表示的的什么含義。

--式子1

--式子2

--式子3

解釋下符號，m為樣本的個數，C為類別個數。上面三個式子都可以作為神經網絡的損失函數作為訓練，那么區別是什么？

■1》式子1，用於那些類別之間互斥(如：一張圖片中只能保護貓或者狗的其中一個)的單任務分類中。連接的 softmax層之后的概率分布。

tensorflow中的函數為： tf.nn.softmax_cross_entropy_with_logits

■2》式子2，用於那些類別之間不存在互斥關系(如:一張圖片中可有貓和狗兩種以上的類別同時存在)的多任務學習分類中。最后一層的每個節點不在是softmax函數的輸出了，而是sigmoid。把每個節點當成一個完整的分布，而式子1是所有節點組合程一個完整分布。

tensorflow中的函數為：tf.nn.sigmoid_cross_entropy_with_logits

■3》式子3，用於最后一層只有一個節點的二分類任務

二.交叉熵損失意義

要解釋交叉熵損失函數的意義，我認為應該從熵的根源說起。這里我不介紹熵作者呀，來源呀什么的不再介紹了(主要是懶)，哈哈！）這里講的順序是：信息量--》信息熵--》交叉熵

1.信息量

意義：

如果一個事件發生的概率為p,那么獲知該信息發生能給到我們

的信息量(可以理解為意外程度)

例子：巴西跟中國乒乓球比賽，歷史上交手64次，其中中國獲勝63次，那么63/64是賽前普遍認為中國隊獲勝的概率，那么這次中國獲勝的信息量有多大？

如果這次是巴西獲勝，那么帶給我們的信息量為：

單位：bit

如果一件事件的發生概率為：100%，帶給我們的信息量為：0

通俗點講就是，如果一件事情，本身發生的概率很大，如果再次發生，我們並沒有覺得有什么好奇的。但是一件發生概率很小的事情發生了，我們就會非常驚訝，它能給到我們的信息就越有價值。例如：太陽每天都是從東邊出來，這個概率幾乎是1，所以我們都其以為常，沒什么好驚訝的，但是某天太陽從西邊出來了，這個時候，打破了我們的常識，這個概率非常小的事件居然發生了，我們就會非常驚訝，它給我們信息量是非常大的，也許我們可以根據這個現象發現一種新的東西。

2.信息熵

意義：

用來做信息的雜亂程度的量化描述。

定義：