信息熵及梯度計算


1.信息熵及梯度計算

熱力學中的熵:是表示分子狀態混亂程度的物理量
信息論中的熵:用來描述信源的不確定性的大小
經常使用的熵概念有下列幾種:
信息熵、交叉熵、相對熵、條件熵、互信息

信息熵(entropy)

信源信息的不確定性函數f通常滿足兩個條件:
  1. 是概率p的單調遞減函數。
  2. 兩個獨立符號所產生的不確定性應等於各自不確定性之和,即f(p1,p2)=f(P1)+f(2)。
對數函數同時滿足這兩個條件:
信息熵:要考慮信源所有可能發生情況的平均不確定性。若信源符號有n種取值:U1…,Ui…,Un,對應概率為p1…pi…,pn,且各種出現彼此獨立。此時信源的平均不確定性應當為單個符號不確定性-logpi的統計平均值(E),稱為信息熵,即

交叉熵(cross enytropy)

定義:交叉熵是信息論中一個重要的概念,用於表征兩個變量概率分布P,Q(假設P表示真實分布,Q為模型預測的分布)的差異性。交叉熵越大,兩個變量差異程度越大。
應用:一般作為神經網絡的損失函數用來衡量模型預測的分布和真實分布之間的差異。
交叉熵公式:

相對熵(relative entropy)

也稱為KL散度 (Kullback- eibler divergence,簡稱KLD)、信息散度(information dⅳ ergence)、信息增益((information gain)。
相對熵的定義:是交叉熵與信息熵的差值。表示用分布Q模擬真實分布P,所需的額外信息。
相對熵公式:
舉例:
 
相對熵的性質:
  • 相對熵不具有對稱性,即DkL(P||Q)≠DkL(Q‖P)。

  • 相對熵具有非負性。

JS散度(Jensen- Shannon divergence

JS散度具有對稱性:
由於KL散度不具對稱性,因此JS散度在KL散度的基礎上進行了改進。
現有兩個分布p1和p2,其散度公式為:

聯合熵(復合熵,Joint Entropy)

  • 用H(X,Y)表示
  • 兩個隨機變量X,Y的聯合分布的熵,形成聯合熵

條件熵(the conditional entropy)

條件熵:H(X|Y)表示在已知隨機變量Y的條件下隨機變量X的不確定性。
H(X|Y)=H(X,Y)-H(Y),表示(X,Y)的聯合熵,減去Y單獨發生包含的熵。
推導過程:
  1. 假設已知y=yj,則
  2. 對於y的各種可能值,需要根據出現概率做加權平均。即

互信息(Mutual Information)

互信息可以被看成是一個隨機變量中包含的關於另一個隨機變量的信息量,或者說是一個隨機變量由於已知另一個隨機變量而減少的不確定性。
即互信息l(X;Y)是聯合分布p(x,y)與乘積分布p(x)p(y)的相對熵

文氏圖圖解

2.反向傳播中的梯度(Gradient in Backpropagation)

反向傳播(BP)算法的學習過程由正向傳播過程和反向傳播過程組成。
反向傳播需要通過遞歸調用鏈規則( chain rule)計算表達式的梯度。

梯度的簡單解釋

使用鏈規則對復合表達式求導

矩陣-矩陣相乘的梯度

需要注意維度和轉置操作,例如,D=W*X(W通常表示全局矩陣,X通常表示樣本的特征向量矩陣)

3.感知機

感知機是兩類分類的線性分類模型。假設輸入為實例樣本的特征向量x,輸出為實例樣本的類別y。則由輸入空間到輸出空間的如下函數稱之為感知機。
g為激勵函數,以達到對樣本分類的目的。 
Rosenblatt感知器用階躍函數作激勵函數,其函數公式如下:

感知機模型的損失函數

 

感知機模型的優化-隨機梯度下降法

感知機學習算法

感知機迭代實例

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM