【數學基礎】深度學習中的一些簡單數學原理


@

0. 前言

  通常論文中會有一些數學公式來證明作者理論,我覺得讀論文不搞懂原理與證明,只了解了框架與流程,是不會有自己的創新以及idea,本文也是記錄我自己在讀paper遇到的一些數學理論,前面會敘述一些簡單的數學知識。

1. 熵

1.1 熵的定義

  在信息論中,熵用來衡量一個隨機事件的不確定性。假設對一個隨機變量\(X\)(取值集合為\(\chi\),概率分布為\(p(x)\), \(x \in \chi\))進行編碼,自信息\(I(x)\)是變量\(X=x\)時的信息量或編碼長度,定義為:

\[I(x) = -log(p(x)) \]

  熵表示隨機變量的信息以及穩定性,熵越大,信息越多,不確定性越大,反之同理。比如有兩個隨機樣本概率分別為0.5,0.5與概率分別為0.9,0.1相比,明顯是前者的不確定性大於后者,所以前者熵大於后者,熵也是隨機變量X的平均編碼長度,具體公式如下:

\[H(x) = E_X[I(x)]= - \sum_{x \in X} p(x) log p(x) (離散) \]

1.2 聯合熵與條件熵

  對於兩個離散隨機變量X和Y,假設X取值集合為\(\chi\),Y取值集合為\(\gamma\),其聯合概率分別滿足為\(p(x, y)\)
  X和Y的聯合熵為

\[H(X,Y) = -\sum_{x \in \chi} \sum_{y \in \gamma} p(x, y) logp(x, y) \]

  X和Y的條件熵為

\[H(X|Y) = -\sum_{x \in \chi} \sum_{y \in \gamma} p(x, y) log {p(x|y)} \\ \quad \quad \quad \ \ \ \ = -\sum_{x \in \chi} \sum_{y \in \gamma} p(x, y) log\frac{p(x, y)}{p(y)}\]

  根據其定義,條熵也可以寫為:

\[H(X|Y) = H(X, Y) - H(Y) \]

1.3 互信息

  互信息是衡量已知一個變量時,另一個變量不確定性的減少程度。兩個離散隨機變量X和Y的互信息定義為:

\[I(X;Y) = \sum_{x \in \chi} \sum_{y \in \gamma} p(x, y)\ log\frac{p(x, y)}{p(x)p(y)} \]

  互信息的一個性質為:

\[I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) \]

  如果相互獨立,則相互不提供任何信息,他們的互信息為0

1.4 交叉熵

  對應分布為\(p(x)\)的隨機變量,熵\(H(p)\)表示其最優編碼長度。交叉熵是按照概率分布\(q\)的最優編碼對真實分布為\(p\)的信息進行編碼的長度,定義為:

\[H(p, q) = E_{p}[-logq(x)]=-\sum_{x}{p(x)}\ logq(x) \]

  給定\(p\)情況下,如果\(q\)\(p\)越接近,交叉熵越小,如果\(q\)\(p\)越遠,交叉熵就越大。

2. 散度

2.1 KL散度

  \(KL\)散度,也叫\(KL\)距離或者相對熵,使用概率分布\(q\)來近似\(p\)時所造成的信息損失量。\(KL\)散度是按照概率分布\(q\)的最優編碼對真實分布為\(p\)的信息進行編碼,其平均編碼長度\(H(p, q)\)\(p\)的最優平均編碼長度\(H(p)\)之間的差異。對於離散概率分布\(p\)\(q\),從\(q\)\(p\)\(KL\)散度定義為:

\[D_{KL}(p||q) = H(p, q) - H(p) = \sum_{x} p(x)\ log\frac{p(x)}{q(x)} \]

其中為了保持連續性,定義\(0\ log\frac{0}{0} = 0, 0\ log\frac{0}{q} = 0\)
  \(KL\)散度可以是衡量兩個概率分布之間的距離。\(KL\)散度總是非負的,\(D_{KL}(p∥q) ≥0\)。只有當\(p = q\) 時,\(D_{KL}(p∥q) = 0\)。如果兩個分布越接近,\(KL\)散度越小;如果兩個分布越遠,\(KL\)散度就越大。但\(KL\)散度並不是一個真正的度量或距離,一是\(KL\)散度不滿足距離的對稱性,二是\(KL\)散度不滿足距離的三角不等式性質。
也可以查看另一種解釋:如何理解KL散度

2.2 JS散度

  \(JS\)散度(Jensen–Shannon divergence)是一種對稱的衡量兩個分布相似度的度量方式,定義為

\[D_{JS}(p||q) = \frac{1}{2}D_{KL}(p||m) + \frac{1}{2}D_{KL}(q||m) \]

其中\(m = \frac{1}{2}(p+q)\).
  \(JS\)散度是\(KL\)散度一種改進。但兩種散度有存在一個問題,即如果兩個分布 \(p, q\) 個分布沒有重疊或者重疊非常少時,\(KL\) 散度和 \(JS\) 散度都很難衡量兩個分布的距離.

參考文獻

我校邱錫鵬老師的文檔


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM