損失函數--KL散度與交叉熵


損失函數

在邏輯回歸建立過程中,我們需要一個關於模型參數的可導函數,並且它能夠以某種方式衡量模型的效果。這種函數稱為損失函數(loss function)。

損失函數越,則模型的預測效果越。所以我們可以把訓練模型問題轉化為最小化損失函數的問題。

損失函數有多種,此次介紹分類問題最常用的交叉熵(cross entropy)損失,並從信息論貝葉斯兩種視角闡釋交叉熵損失的內涵。

 ## 公式請查看https://blog.csdn.net/Ambrosedream/article/details/103379183 

K-L散度與交叉熵

  • 隨機變量Xk種不同的取值:,,。 記X的取值 的概率為p(X=) ,簡寫為P() .

  • 克勞德· 香農定義了信息的信息量:

    注:其中對數可以以任意合理數為底,如 2、e。使用不同的底數所得到的信息量之間相差一個常系數。

    若以2為底,信息量的單位是bit ,I(X= )是X = 這條信息的自信息量(self-information) .

  • 自信息量I隨着概率P()的圖像變化如下:

    img

    自信息量背后的含義:信息中事件發生的概率越小,則信息量越大。

    舉例:假如有人告訴你即將開獎的彩票中獎號碼是777777777,這條信息的價值很高,類似事情發生概率極小。假如有人告訴你明天太陽會升起,這件事對你來說價值很低,但是他發生的概率卻很高。所以我們會覺得彩票的開獎號信息量很大,太陽升起的信息量較小。

     

     

  • 我們令信息源X 取不同的值 的概率分布分別為 .

  • 定義信息源 X的熵(entropy)為:

    H(p) =

  • 信息源由概率分布p描述,s所以熵是p的函數,熵的概念來自熱力學。H(p)又稱平均信息。

  • 根據公式我們可以看出,H(p)是將X所有取值的自信息量以概率為權重取平均。

  • 對於兩個概率分布p和q, 定義p和q的K-L散度(kullback-leibler divergence)是:

  • K-L散度是 在分布p上的期望。(注:KLD(p||q) KLD(q||p))

  • 根據上述公式我們可以發現,當 相等時, 所以KLD散度等於0。所以說兩個同分布的KLD散度為0,所以我們一般使用KLD描述兩個概率分布之間的相似度。

  • 我們定義交叉熵:

  • 所以根據上述兩式,有:

    H(p,q) = KLD(p||q) + H(p)

  • 分布p和q的交叉熵等於它們的K-L散度加上p的熵。現在假設分布p固定,則H(p,q)與KLD(p||q)之間只相差一個常數H(p),所以此時H(p,q)也可以被用來描述兩個分部之間的相似程度。即:H(p,q)越小,p,q越相似。

 

  1. 對於一個訓練樣本{ } 可以標簽 給出了一個類別的概率分布:

  2. ,,

  3. 我們將邏輯回歸模型的輸出看做一個分布Q:

  4. 所以我們希望回歸模型的准確率盡可能地高,即是希望分布Q與訓練集P的分布盡可能地相似,由此我們可以使用交叉熵來描述輸出分布於標簽分布的相似度,也就是我們所說的損失函數(loss)

 

上式是模型在一個樣本的交叉熵,其值越小,預測分布於標簽給出分布越相似。

 

 

上式是樣本的平均交叉熵,作為模型的損失函數。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM