損失函數

在邏輯回歸建立過程中，我們需要一個關於模型參數的可導函數，並且它能夠以某種方式衡量模型的效果。這種函數稱為損失函數（loss function)。

損失函數越小，則模型的預測效果越優。所以我們可以把訓練模型問題轉化為最小化損失函數的問題。

損失函數有多種，此次介紹分類問題最常用的交叉熵（cross entropy)損失,並從信息論和貝葉斯兩種視角闡釋交叉熵損失的內涵。

## 公式請查看：https://blog.csdn.net/Ambrosedream/article/details/103379183

K-L散度與交叉熵

隨機變量X有k種不同的取值： $，，。記 X 的取值的概率為p(X= ) ,簡寫為P（ ) .$
克勞德· 香農定義了信息的信息量：

$$

注：其中對數可以以任意合理數為底，如 2、e。使用不同的底數所得到的信息量之間相差一個常系數。

若以2為底，信息量的單位是bit ，I（X= $)是X = 這條信息的自信息量（self-information) .$
自信息量I隨着概率P( $)的圖像變化如下：$

自信息量背后的含義：信息中事件發生的概率越小，則信息量越大。

舉例：假如有人告訴你即將開獎的彩票中獎號碼是777777777，這條信息的價值很高，類似事情發生概率極小。假如有人告訴你明天太陽會升起，這件事對你來說價值很低，但是他發生的概率卻很高。所以我們會覺得彩票的開獎號信息量很大，太陽升起的信息量較小。
我們令信息源X 取不同的值 $ 的概率分布分別為 .$
定義信息源 X的熵（entropy)為：

H(p) = $$
信息源由概率分布p描述，s所以熵是p的函數，熵的概念來自熱力學。H(p)又稱平均信息。
根據公式我們可以看出，H(p)是將X所有取值的自信息量以概率為權重取平均。
對於兩個概率分布p和q, 定義p和q的K-L散度（kullback-leibler divergence)是：

$$
K-L散度是 $ 在分布p上的期望。（注：KLD(p||q) KLD(q||p))$
根據上述公式我們可以發現，當 $和相等時，所以KLD散度等於0。所以說兩個同分布的KLD散度為0，所以我們一般使用KLD描述兩個概率分布之間的相似度。$
我們定義交叉熵：

$$
所以根據上述兩式，有：

H(p,q) = KLD(p||q) + H(p)
分布p和q的交叉熵等於它們的K-L散度加上p的熵。現在假設分布p固定，則H(p,q)與KLD(p||q)之間只相差一個常數H(p)，所以此時H(p,q)也可以被用來描述兩個分部之間的相似程度。即：H(p,q)越小，p,q越相似。

對於一個訓練樣本{ $} 可以標簽給出了一個類別的概率分布：$
$，， $
我們將邏輯回歸模型的輸出看做一個分布Q：
$， $
所以我們希望回歸模型的准確率盡可能地高，即是希望分布Q與訓練集P的分布盡可能地相似，由此我們可以使用交叉熵來描述輸出分布於標簽分布的相似度，也就是我們所說的損失函數（loss)

$$

上式是模型在一個樣本的交叉熵，其值越小，預測分布於標簽給出分布越相似。

上式是樣本的平均交叉熵，作為模型的損失函數。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 交叉熵與KL散度熵、交叉熵、KL散度、JS散度 KL散度、交叉熵與極大似然的友誼 KL散度、JS散度和交叉熵交叉熵cross entropy和相對熵（kl散度） KL散度（相對熵）和交叉熵的區別【機器學習基礎】熵、KL散度、交叉熵信息熵，交叉熵與KL散度信息熵、交叉熵、KL散度、JS散度、Wasserstein距離 KL 散度（相對熵）