損失函數
在邏輯回歸建立過程中,我們需要一個關於模型參數的可導函數,並且它能夠以某種方式衡量模型的效果。這種函數稱為損失函數(loss function)。
損失函數越小,則模型的預測效果越優。所以我們可以把訓練模型問題轉化為最小化損失函數的問題。
損失函數有多種,此次介紹分類問題最常用的交叉熵(cross entropy)損失,並從信息論和貝葉斯兩種視角闡釋交叉熵損失的內涵。
## 公式請查看:https://blog.csdn.net/Ambrosedream/article/details/103379183
K-L散度與交叉熵
-
隨機變量X有k種不同的取值:,,。 記X的取值 的概率為p(X=) ,簡寫為P() .
-
克勞德· 香農定義了信息的信息量:
注:其中對數可以以任意合理數為底,如 2、e。使用不同的底數所得到的信息量之間相差一個常系數。
若以2為底,信息量的單位是bit ,I(X= )是X = 這條信息的自信息量(self-information) .
-
自信息量I隨着概率P()的圖像變化如下:
自信息量背后的含義:信息中事件發生的概率越小,則信息量越大。
舉例:假如有人告訴你即將開獎的彩票中獎號碼是777777777,這條信息的價值很高,類似事情發生概率極小。假如有人告訴你明天太陽會升起,這件事對你來說價值很低,但是他發生的概率卻很高。所以我們會覺得彩票的開獎號信息量很大,太陽升起的信息量較小。
-
我們令信息源X 取不同的值 的概率分布分別為 .
-
定義信息源 X的熵(entropy)為:
H(p) =
-
信息源由概率分布p描述,s所以熵是p的函數,熵的概念來自熱力學。H(p)又稱平均信息。
-
根據公式我們可以看出,H(p)是將X所有取值的自信息量以概率為權重取平均。
-
對於兩個概率分布p和q, 定義p和q的K-L散度(kullback-leibler divergence)是:
-
K-L散度是 在分布p上的期望。(注:KLD(p||q) KLD(q||p))
-
根據上述公式我們可以發現,當和 相等時, 所以KLD散度等於0。所以說兩個同分布的KLD散度為0,所以我們一般使用KLD描述兩個概率分布之間的相似度。
-
我們定義交叉熵:
-
所以根據上述兩式,有:
H(p,q) = KLD(p||q) + H(p)
-
分布p和q的交叉熵等於它們的K-L散度加上p的熵。現在假設分布p固定,則H(p,q)與KLD(p||q)之間只相差一個常數H(p),所以此時H(p,q)也可以被用來描述兩個分部之間的相似程度。即:H(p,q)越小,p,q越相似。
-
對於一個訓練樣本{ } 可以標簽 給出了一個類別的概率分布:
-
,,
-
我們將邏輯回歸模型的輸出看做一個分布Q:
-
,
-
所以我們希望回歸模型的准確率盡可能地高,即是希望分布Q與訓練集P的分布盡可能地相似,由此我們可以使用交叉熵來描述輸出分布於標簽分布的相似度,也就是我們所說的損失函數(loss)
上式是模型在一個樣本的交叉熵,其值越小,預測分布於標簽給出分布越相似。