Noise Contrastive Estimation --- 從 NCE 到 InfoNCE

本文轉載自查看原文 2021-01-22 17:16 1969 deep learning/ DeepLearning

轉載：https://zhuanlan.zhihu.com/p/334772391

Noise Contrastive Estimation 前世今生——從 NCE 到 InfoNCE

0 前言

作為剛入門自監督學習的小白，在閱讀其中 Contrastive Based 方法的自監督論文時，經常會看到 InfoNCE 這個 loss（在 CPC 的論文中提出），之前只知道它的思想來自於 NCE 以及代表什么含義，但是對其背后的理論推導、以及如何從 NCE 遷移到 InfoNCE 的不太清楚，因此這篇文章就是通過理論推導和自己的理解來對 NCE 和 InfoNCE 的來龍去脈有個了解。（這篇文章着重於原理，因此公式和推導較多）

1 從 NLP 入手

1.1 背景

NCE，也就是 Noise Contrastive Noise（噪聲對比估計），在 [2] 這篇論文中被提出，但是這篇論文的闡述的不太便於理解，並且論文中估計的是概率密度函數（pdf, probability density function）。而 NLP 中的 word 或 vision 中的 pixel 都是離散的，且我們感興趣的是的概率質量函數（pmf, probability mass function），因此我主要參考了 [4] 這篇論文，它就是在使用 NCE 時假設了離散分布，並用 pmf 代替其中 pdf，然后將 NCE 應用到 NLP 領域。（我對 NLP 領域不是很了解，所以部分闡述方式可能會不嚴謹）。

1.2 n-gram

語言模型（language model）就是假設一門語言所有可能的句子服從一個概率分布，每個句子出現的概率加起來是1，那么語言模型的任務就是預測每個句子在語言中出現的概率。如果把句子 $s$ 看成單詞 $w$ 的序列 $s=\{w_1,w_2,...,w_m\}$ ，那么語言模型就是建模一個 $p(w_1,w_2,...,w_m)$ 來計算這個句子 $s$ 出現的概率，直觀上我們要得到這個語言模型，基於鏈式法則可以表示為每個單詞出現的條件概率的乘積，我們將條件概率的條件 $(w_1,w_2,...,w_{i-1})$ 稱為單詞 $w_i$ 的上下文，用 $c_i$ 表示。

$\begin{aligned} p\left(w_{1}, w_{2}, \ldots, w_{m}\right)&=p\left(w_{1}\right) * p\left(w_{2} \mid w_{1}\right) * p\left(w_{3} \mid w_{1}, w_{2}\right) \ldots p\left(w_{m} \mid w_{1}, \ldots, w_{m-1}\right) \\ &=\prod_{i=1}^{m} p\left(w_{i} \mid w_{1}, w_{2}, \ldots, w_{i-1}\right) \\ &=\prod_{i=1}^{m} p\left(w_{i} \mid c_i\right) \end{aligned} \tag 1$

可以看到，language model 就是條件概率 $p(w|c)$ 的集合，但是直接計算每個 $w$ 在語料庫中的條件概率是需要很大計算量的。因此在統計語言模型中，引入了馬爾可夫假設，即“一個詞出現的概率只與它前面出現的有限的一個或者 n 個詞有關”，將這 $n$ 個詞稱為一個 gram，這就是著名的 n-gram 模型，因此可以將模型簡化為：

$p\left(w_{1}, w_{2}, w_{3}, \ldots, w_{m}\right)=\prod_{i=1}^{m} p\left(w_{i} \mid w_{i-n+1}, \ldots, w_{i-1}\right) \tag 2$

1.3 最大似然估計

上面的 n-gram 構建語言模型的方法實際上就是，將一個訓練語料庫中的每個 $w_i$ 和它的 $c_i$ (也就是由前面n個 $w$ 構成)的條件概率計算出來並儲存（實際操作上是統計每個gram出現的次數），然后下一次計算某個句子的出現的概率時，即 $(2)$ 式，就在存儲中找到這個句子中出現的 $w$ 和 $c$ 的條件概率，然后乘起來即可。

因此，我們是否可以不事先計算並存儲每個 $w$ 和 $c$ 條件概率，而是建立一個模型(或者說函數)，給這個模型一組 $w$ 和 $c$ 就能輸出它們的條件概率。

在機器學習領域有一個方法是：對所要考慮的問題建模后為其構造一個目標函數，然后對這個目標函數進行優化，從而求得一組最優的參數，最后利用這組最優參數對應的模型進行預測，也就是最大似然估計。

在建模統計語言模型時，利用最大似然估計，根據 $(1)$ 式目標函數，我們可以寫出其對數似然函數如下：

$\mathcal{L}_{MLE}= \sum_{w_i \in s} \log p_{\theta}(w_i\mid c_i) \tag 3$

然后最大化對數似然函數 $\mathcal{L}_{MLE}$ ，實際上這樣就是將 $p(w|c)$ 看成 $w$ 和 $c$ 的函數， $\theta$ 為待定參數集： $p_{\theta}(w|c)=F(w,c;\theta) \tag 4$

這樣一旦最優參數集 $\theta^{*}$ 可以確定，函數 $F$ 就被唯一確定，那么對於任何概率 $p(w|c)$ 都可以用函數 $F(w,c;{\theta}^{*})$ 來計算了。

1.4 神經概率語言模型

上面的方法似然看起來很美好，但其中有兩個問題：

如何構造一個好的函數 $F$ 。
最大似然估計雖然理論上簡單可行，但對於某些模型，在實際計算時可能需要很大的計算量，因此未必容易。

首先來看第一個問題，這也就是我們為什么引入神經網絡，因為神經網絡理論上可以表示任何函數，那么通過訓練，肯定能找到這個合適的 $F$ ，因此 Bengio 等人在 2003 年 A Neural Probabilistic Language Model [8] 中提出了神經概率語言模型（NPLM）。其不在受限於 gram 的大小，可以在包含任意大小上下文的情況下建模 $w$ 的條件概率。

具體來看，它把語言模型的建立當作一個多分類問題，我們用 $V=\{ v_1,v_2,...,v_{|V|} \}$ 表示一個包含所有單詞的單詞庫，其大小為 $|V|$ ，將 $(w,c)$ 當成一對訓練樣本（實際上 $w$ 會轉換成詞向量，這里不做詳解），通過神經網絡后和 softmax 后，輸出一個向量 $\hat{y}=\left[\hat{y}_{i,1},\hat{y}_{i,2},...,\hat{y}_{i,|V|}\right]$ , 其中每一維 $\hat{y}_{i,j}=p(v_j|c_i)$ 表示上下文為 $c_i$ 時第 $i$ 個單詞 $w_i$ 是單詞庫中第 $j$ 個單詞 $v_j$ 的概率，訓練過程要求最后單詞庫中概率最大的單詞就是訓練樣本對中的 $w_i$ 。這樣訓練結束后，給神經網絡一個上下文 $c_l=(w_1,w_2,...,w_{l-1})$ ，神經網絡就能預測在當前上下文 $c_l$ 時，下一個單詞 $w_l$ 是單詞庫中的各個詞的概率 $p(w_l|c_l)$ ，通過這個我們也就可以構建語言模型。

我們知道，這種方法本質上就是擬合一個 $w$ 和 $c$ 的函數 $F$ ，或者說建立一個參數集為 $\theta$ 條件概率分布 $p_{\theta}(w|c)$ ，只要給出當前上下文 $c$ ，我們就能夠直接計算下一個單詞 $w$ 的概率。

假設輸入到 softmax 前的結果用 $s_{\theta}(w,c)$ 表示，實際上 $s_{\theta}(w,c)$ 是有含義的，它是一個 socring function ，輸出的分數用來量化 $w$ 在上下文 $c$ 中匹配性，那么 $w$ 條件概率可以表示為以下形式： $\begin{aligned} p_{\theta}(w|c)&= \frac{exp(s_{\theta}(w,c))}{\sum_{w^\prime \in V}exp(s_{\theta}(w,c))} \\ &= \frac{u_{\theta}(w,c)}{Z(c)} \end{aligned} \tag 5$

式中， $u_{\theta}(w,c)=exp(s_{\theta}(w,c))$ 表示下一個單詞是這個 $w$ 在單詞庫中的概率；令 $Z(c) = \sum_{w^\prime \in V}exp(s_{\theta}(w,c))$ 表示當前單詞庫中所有單詞的概率的累和，通常將這一項叫做“配分函數”或“歸一化因子”。一般來說，單詞庫 $|V|$ 的數量是非常巨大的，因此計算 $Z(c)$ 是非常昂貴、耗時的一件事，這也就是 NCE 要解決的問題。（見附錄1）

如果我們不考慮 $s_{\theta}(w,c)$ 的具體形式，那么 $(5)$ 式實際上就可以當作我們在 $(4)$ 式中所構造的函數 $F$ 的表達式，既然如此，那我們接着用 1.3 中提到的最大似然估計的方式來試着求解 $F$ 的參數 $\theta$ 。我們將從句子 $s$ 中取樣的 $w$ 看成經驗分布(數據分布) $\tilde{p}(w|c)$ ， $(3)$ 式中的 $\mathcal{L}_{MLE}$ 可以寫成：

$\begin{aligned} \mathcal{L}_{MLE} &= \sum_{w \sim \tilde{p}(w|c)} \log p_{\theta}(w \mid c) \\ &=\mathbb E_{w \sim \tilde{p}(w|c)} \log{\frac{u_{\theta}(w,c)}{Z(c)}} \end{aligned} \tag 6$

現在要最大化 $\mathcal{L}_{MLE}$ ，那么將其關於 $\theta$ 求導：

$\begin{aligned} \frac{\partial}{\partial \theta}\mathcal{L}_{\mathrm{MLE}}&=\mathbb E_{w \sim \tilde{p}(w|c)} \frac{\partial}{\partial \theta}\log{\frac{u_{\theta}(w,c)}{Z(c)}} \\ &=\mathbb E_{w \sim \tilde{p}(w|c)} \left[ \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)}- \frac{\partial}{\partial \theta}\log{Z(c)} \right] \\ &=\mathbb E_{w \sim \tilde{p}(w|c)} \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)} - \frac{\partial}{\partial \theta} \log{Z(c)} \end{aligned} \tag 7$

這里解釋一下上面到最后一步的轉換，因為 $Z(c)=\sum_{w^\prime \in V}exp(s_{\theta}(w,c))$ ，其中 $w^{\prime}$ 為單詞庫 $V$ 中所有的單詞，而單詞庫其中每個單詞的概率由 $p_{\theta}(w|c)$ 產生，因此 $w^{\prime} \sim p_{\theta}(w|c)$ ，與經驗分布 $w \sim \tilde{p}(w|c)$ 不相關，所以可以把期望 $\mathbb E_{w \sim \tilde{p}(w|c)}$ 去掉。

$(7)$ 式結果中的 $\frac{\partial}{\partial \theta} \log{Z(c)}$ 計算如下：

$\begin{aligned} \frac{\partial}{\partial \theta}\log{Z(c)}&=\frac{1}{Z(c)} \frac{\partial}{\partial \theta}Z(c) \\ &=\frac{1}{Z(c)}\frac{\partial}{\partial \theta} \sum_{w^\prime \in V}u_{\theta}(w,c) \\ &=\frac{1}{Z(c)} \frac{\partial}{\partial \theta} \sum_{w^\prime \in V} {exp(s_{\theta}(w,c))} \\ &=\sum_{w^\prime \in V} \frac{1}{Z(c)} exp(s_{\theta}(w,c)) \frac{\partial}{\partial \theta} s_{\theta}(w,c) \\ &=\sum_{w^\prime \in V} p_{\theta}(w|c) \frac{\partial}{\partial \theta} s_{\theta}(w,c) \\ &=\mathbb{E}_{w \sim p_{\theta}(w|c)} \frac{\partial}{\partial \theta} s_{\theta}(w,c) \\ &=\mathbb{E}_{w \sim p_{\theta}(w|c)} \frac{\partial}{\partial \theta} logu_{\theta}(w,c) \end{aligned} \tag 8$

將 $(8)$ 式結果帶回 $(7)$ 式中得：

$\begin{aligned} \frac{\partial}{\partial \theta}\mathcal{L}_{\mathrm{MLE}} &=\mathbb E_{w \sim \tilde{p}(w|c)} \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)} - \frac{\partial}{\partial \theta} \log{Z(c)} \\ &=\mathbb E_{w \sim \tilde{p}(w|c)} \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)} - \mathbb{E}_{w \sim p_{\theta}(w|c)} \frac{\partial}{\partial \theta} logu_{\theta}(w,c) \\ &=\sum_w{\tilde{p}(w|c) \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)}} - \sum_w {p_{\theta}(w|c) \frac{\partial}{\partial \theta} logu_{\theta}(w,c)} \\ &=\sum_w{\left[ \tilde{p}(w|c) \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)} - p_{\theta}(w|c) \frac{\partial}{\partial \theta} logu_{\theta}(w,c) \right]} \\ &=\sum_w{\left[\left(\tilde{p}(w|c)- p_{\theta}(w|c)\right)\frac{\partial}{\partial \theta} logu_{\theta}(w,c)\right]} \end{aligned} \tag 9$

最大似然好像很容易，但是實際上還是繞不開對“歸一化常數”的計算，所以就需要 NCE 登場了。

2 什么是 NCE

上一節中說明了計算 $Z(c)$ 非常昂貴這個問題需要解決，一個簡單的思路是將 $Z(c)$ 也看出模型的一個參數 $z_c$ 來進行訓練，但是這種方法不適合於上面提到的最大似然估計，因為由 $(6)$ 式可以看出來，它會直接將 $z_c$ 趨於 $0$ 來獲得最大似然。因此，有人提利用這個思想提出了一些不定義 $Z(c)$ ，直接用 $u_{\theta}(w,c)$ 估計模型的方法，如 contrastive divergence (Hinton, 2002)和 score matching (Hyvarinen, 2005)。（見附錄2）

而 NCE 不同於上面兩種方法，它是通過最大化同一個目標函數來估計模型參數 $\theta$ 和歸一化常數，NCE 的核心思想就是通過學習數據分布樣本和噪聲分布樣本之間的區別，從而發現數據中的一些特性，因為這個方法需要依靠與噪聲數據進行對比，所以稱為“噪聲對比估計（Noise Contrastive Estimation）”。更具體來說，NCE 將問題轉換成了一個二分類問題，分類器能夠對數據樣本和噪聲樣本進行二分類，而這個分類器的參數 $\theta$ 就等價於1.4中我們想要得到 $\theta$ 。（見附錄3）

現在假設一個特定上下文 $c$ 的數據分布為 $\tilde{p}(w|c)$ ，我們稱從它里面取出的樣本為正樣本，令類別 $D=1$ ；而另一個與 $c$ 無關的噪聲分布為 $q(w)$ ，我們稱從里面取出的樣本為負樣本，令類別為 $D=0$ 。遵循 Gutmann and Hyvrinen (2012) [3] 中的設置，假設現在取出了 $k_d$ 個正樣本和 $k_d$ 個負樣本，將這些正負樣本混合形成一個混合分布 $p_{mixture}(w|c)$ 。

我們得到下面這些概率:

$\begin{aligned} p(D=1)=\frac{k_d}{k_d+k_n} \\ p(D=0)=\frac{k_n}{k_d+k_n} \\ p(w|D=1,c)= \tilde{p}(w|c) \\ p(w|D=0,c)=q(w) \end{aligned} \tag {10}$

所以可以計算后驗概率:

$\begin{aligned} p(D=0|w,c) &=\frac{p(D=0)p(w|D=0,c)}{p(D=0)p(w|D=0,c)+p(D=1)p(w|D=1,c)} \\ &=\frac{\frac{k_n}{k_d+k_n} \times q(w)}{\frac{k_d}{k_d+k_n} \times \tilde{p}(w \mid c)+\frac{k_n}{k_d+k_n} \times q(w)} \\ &=\frac{\frac{k_n}{k_d} \times q(w)}{\tilde{p}(w \mid c)+\frac{k_n}{k_d} \times q(w)} \\ \\ p(D=1|w,c)&= \frac{p(D=1)p(w|D=1,c)}{p(D=0)p(w|D=0,c)+p(D=1)p(w|D=1,c)} \\ &=\frac{\frac{k_d}{k_d+k_n} \times \tilde{p}(w|c)}{\frac{k_d}{k_d+k_n} \times \tilde{p}(w \mid c)+\frac{k_n}{k_d+k_n} \times q(w)} \\ &=\frac{\tilde{p}(w \mid c)}{\tilde{p}(w \mid c)+\frac{k_n}{k_d} \times q(w)} \end{aligned} \tag {11}$

我們令負樣本和正樣本的比例為： $k=\frac{k_n}{k_d}$ ，則有：

$\begin{aligned} p(D=0|w,c) &=\frac{k \times q(w)}{\tilde{p}(w \mid c)+k \times q(w)} \\ \\ p(D=1|w,c) &=\frac{\tilde{p}(w \mid c)}{\tilde{p}(w \mid c)+k \times q(w)} \end{aligned} \tag {12}$

現在我們觀察 $(12)$ 式，NCE 所做的事情就是將式中的經驗分布 $\tilde{p}(w|c)$ 替換成概率模型 $p_{\theta}(w|c)$ ，使后驗概率成為參數為 $\theta$ 的函數。但問題是這樣現在這樣的形式還是需要計算 $Z(c)$ ，我們只是將原來問題進行了一定的轉換從而引入了噪聲分布。為了解決這個問題，NCE 做了兩個設定：

一個就是前面提到的，將 $Z(c)$ 作為一個參數 $z_c$ 來進行估計，相當於引進了一個新的參數。
第二個是，事實證明(Mnih and Teh, 2012)，對於參數很多的神經網絡來說，我們將 $z_c$ 固定為 1 對每個 $c$ 仍是有效的。

第二個設定，即減少了參數的數量，又使模型的輸出符合”歸一化“的性質（即 $Z(c)≈1$ ），是很合理的，如果 $Z(c)≈1$ ，由 $(5)$ 式可以得到 $p_{\theta}(w|c)=u_{\theta}(w|c)$ , 那么 $(12)$ 式可以寫成如下形式，即具有參數 $\theta$ 的后驗概率：

$\begin{array}{l} p_{\theta}(D=0|w,c)=\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \\ p_{\theta}(D=1|w,c)=\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)} \end{array} \tag {13}$

現在我們有了參數為 $\theta$ 的二元分類問題，假設標簽 $D_t$ 為伯努利分布，那么很容易寫出他的條件對數似然 $\mathcal{L}_{NCE}^c$ 如下，實際上在它前面加上負號后， $-\mathcal{L}_{NCE}^c$ 也就等價於 logistics 分類里的 log loss，或者說交叉熵損失函數：

$\begin{aligned} \mathcal{L}^c_{\mathrm{NCE}} &=\sum_{t=1}^{k_d+k_n} \left[ D_t \log P(D=1|w_t,c) +(1-D_t) \log P(D=0|w_t,c) \right] \\ &=\sum_{t=1}^{k_d}\log P(D=1|w_t,c) + \sum_{t=1}^{k_n} \log P(D=0|w_t,c) \\ &=\sum_{t=1}^{k_d}\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)} + \sum_{t=1}^{k_n} \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \\ \end{aligned} \tag {14}$

而 NCE 的目標函數還需要在 $(14)$ 式的基礎上除以正樣本的數量 $k_d$ ，即

$\begin{aligned} J^c_{NCE} &=\frac{1}{k_d}\left[\sum_{t=1}^{k_d}\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)} + \sum_{t=1}^{k_n} \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)}\right] \\ &=\frac{1}{k_d}\sum_{t=1}^{k_d}\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)} + \frac{1}{k_d} \sum_{t=1}^{k_n} \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \\ &=\frac{1}{k_d}\sum_{t=1}^{k_d}\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)} + \frac{k}{k_n} \sum_{t=1}^{k_n} \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \end{aligned} \tag {15}$

當數據數量很大時，根據大數定律，上式也可以寫成：

$\begin{aligned} J^c_{NCE} &=\frac{1}{k_d}\sum_{t=1}^{k_d}\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)} + \frac{k}{k_n} \sum_{t=1}^{k_n} \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \\ &=\mathbb{E}_{w \sim \tilde{p}(w|c)} \frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)} + k \mathbb{E}_{w \sim q(w)} \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \end{aligned} \tag {16}$

要最大化上述對數似然函數，也就是最大化如下目標函數：

$\begin{aligned} J^c_{NCE}&= \mathbb{E}_{w \sim \tilde{p}(w|c)}{\log{\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)}}} + k\mathbb{E}_{w \sim q(w)} {\log{\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)}}} \\ \end{aligned} \tag {17}$

NCE 目標函數中的 $k$ 實際上就是在設置“二分類問題”時，選取的負樣本與正樣本的比例，通常的做法會默認正樣本數量為 1 ，然后將負樣本的數量 $k$ 作為一個手動輸入的參數，從而確定這個比例 $k$ 。在 TensorFlow 的相關源碼中，正樣本的數量 num_true 默認值為1，如果設置大於 1，那么會進行一個 $1 / {\text{num_ture}}$ 的歸一化。

可以看到實際上這個比例 $k$ 對我們的 NCE 優化是有影響的，所以 NCE 的作者也考慮了什么樣的比例 $k$ 是最好的，我這里就直接說結論了，有興趣的可以看詳細看下這篇論文 Gutmann and Hyvrinen (2012) [3]。

結論是：對於設置的噪聲分布 $q(w)$ ，我們實際上是希望它盡量接近數據分布 $\tilde{p}(w|c)$ ，否則這個二分類任務就過於簡單了，也就無法很好的學到數據特性。而作者通過實驗和推導證明（我在第三節中也會簡單的證明），當負樣本和正樣本數量之比 $k$ 越大，那么我們的 NCE 對於噪聲分布好壞的依賴程度也就越小。換句話說，作者建議我們在計算能力運行的條件下，盡可能的增大比值 $k$ 。也許這也就是大家都默認將正樣本數量設置為 1 的原因：正樣本至少取要 1 個，所以最大化比值 $k$ ，也就是盡可能取更多負樣本的同時，將正樣本數量取最小值 1。

另外，如果我們希望目標函數不是只針對一個特定的上下文 $c$ ，而是使不同的上下文可以共享參數，也就是設置一批上下文的全局目標函數：

$\begin{aligned} J_{NCE} &=\sum_c P(c) J^c_{NCE} \\ \end{aligned} \tag {18}$ 到這，NCE 的構建就完成了，總結一下就是：從上下文 $c$ 中取出單詞作為正樣本，從噪聲分布中取出單詞作為負樣本，正負樣本數量比為 $1:k$ ，然后訓練一個二分類器，通過一個類似於交叉熵損失函數的目標函數進行訓練（如果取正樣本數量為 1，那么 $(14)$ 式與 $(15)$ 式等價，NCE 目標函數就等價於交叉熵損失函數）。

3 NCE 的原理

上面雖然推導了那么多公式，但實際只是按照 NCE 的思想進行問題的轉換，那么這樣做究竟是否正確呢？根據附錄 3 的描述，直覺上看好像是沒有問題的。

我們再看回 $(17)$ 式，我們對它關於 $\theta$ 進行求導:

$\begin{aligned} \frac{\partial}{\partial \theta} J^c_{NCE}(\theta)&= \frac{\partial}{\partial \theta} \left[\mathbb{E}_{w \sim \tilde{p}(w|c)}{\log{\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)}}} + k\mathbb{E}_{w \sim q(w)} {\log{\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)}}} \right] \\ &=\frac{\partial}{\partial \theta} \sum_{w} \tilde{p}(w|c) \log{\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)}} + \frac{\partial}{\partial \theta} k\sum_{w}q(w) \log{\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)}} \\ &=\sum_{w} \tilde{p}(w|c)\frac{\partial}{\partial \theta} \log{\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)}} + k\sum_{w}q(w) \frac{\partial}{\partial \theta} \log{\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)}} \\ \end{aligned} \tag {19}$

分布對上面的兩項進行求導：

$\begin{aligned} \frac{\partial}{\partial \theta} log{\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q({w})}} &= -\frac{\partial}{\partial \theta}log{(1+\frac{k \times q(w)}{u_{\theta}(w,c)})} \\ &=-\frac{1}{1+\frac{k \times q(w)}{u_{\theta}(w,c)}}\frac{\partial}{\partial \theta}\frac{k \times q(w)}{u_{\theta}(w,c)} \\ &=-\frac{1}{1+\frac{k \times q({w})}{u_{\theta}(w,c)}} (k \times q(w)) \frac{-1} {[u_{\theta}(w,c)]^2} \frac{\partial}{\partial \theta} \frac{1}{u_{\theta}(w, c)} \\ &=\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \frac{1}{u_{\theta}(w,c)} \frac{\partial}{\partial \theta} \frac{1}{u_{\theta}(w,c)} \\ &=\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \frac{\partial}{\partial \theta} log{u_{\theta}(w,c)} \end{aligned} \tag {20}$

$\begin{aligned} \frac{\partial}{\partial \theta} log{\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)}} &=-\frac{\partial}{\partial \theta}log{(1+\frac{u_{\theta}(w,c)}{k \times q(w)})} \\ &=-\frac{1}{1+\frac{u_{\theta}(w,c)}{k \times q(w)}}\frac{\partial}{\partial \theta}\frac{u_{\theta}(w,c)}{k \times q(w)} \\ &=-\frac{1}{1+\frac{u_{\theta}(w,c)}{k \times q(w)}} \frac{1}{k \times q(w)} \frac{\partial}{\partial \theta}u_{\theta}(w,c) \\ &=-\frac{1}{u_{\theta}(w,c) + k \times q(w)} \frac{\partial}{\partial \theta}u_{\theta}(w,c) \\ &=-\frac{u_{\theta}(w,c)}{u_{\theta}(w,c) + k \times q(w)} \frac{1}{u_{\theta}(w,c)} \frac{\partial}{\partial \theta}u_{\theta}(w,c) \\ &=-\frac{u_{\theta}(w,c)}{u_{\theta}(w,c) + k \times q(w)} \frac{\partial}{\partial \theta}log{u_{\theta}(w,c)} \\ \end{aligned} \tag {21}$

將上面兩個結果再帶回 $(19)$ 式中，並根據前面 $Z(c)\approx1$ 的設定，也就是 $p_{\theta}(w,c)=u_{\theta}(w,c)$ ：

$\begin{aligned} \frac{\partial}{\partial \theta} J^c_{NCE}(\theta) &=\sum_{w} \tilde{p}(w|c)\frac{\partial}{\partial \theta} \log{\frac{u_{\theta}(w, c)}{u_{\theta}(w, c)+k \times q(w)}} + k\sum_{w}q(w) \frac{\partial}{\partial \theta} \log{\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)}} \\ &=\sum_{w} \tilde{p}(w|c) \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)} - k\sum_{w}q(w) \frac{u_{\theta}(w,c)}{u_{\theta}(w,c) + k \times q(w)} \frac{\partial}{\partial \theta}\log{u_{\theta}(w,c)} \\ &=\sum_{w} \tilde{p}(w|c) \frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \frac{\partial}{\partial \theta} \log{u_{\theta}(w,c)} - \sum_{w} u_{\theta}(w,c) \frac{k \times q(w)}{u_{\theta}(w,c) + k \times q(w)} \frac{\partial}{\partial \theta}\log{u_{\theta}(w,c)} \\ &=\sum_w{\left[\frac{k \times q(w)}{u_{\theta}(w, c)+k \times q(w)} \left(\tilde{p}(w|c)- u_{\theta}(w,c)\right)\frac{\partial}{\partial \theta}log u_{\theta}(w,c)\right]} \end{aligned} \tag {22}$

上一節中我們設定了 $Z(c)\approx1$ ，也就是 $p_{\theta}(w|c)=u_{\theta}(w,c)$ ，因此：

$\begin{aligned} \frac{\partial}{\partial \theta} J^c_{NCE}(\theta) &=\sum_w{\left[\frac{k \times q(w)}{p_{\theta}(w|c)+k \times q(w)} \left(\tilde{p}(w|c)- p_{\theta}(w|c)\right)\frac{\partial}{\partial \theta}log u_{\theta}(w,c)\right]} \end{aligned} \tag {23}$

這里的參數 $k$ 依然指的是負樣本與正樣本數量的比例，如果我們令 $k\to\infty$ 的話，那么：

$\begin{aligned} \lim_{k \to \infty} \frac{\partial}{\partial \theta} J^c_{NCE}(\theta) &=\lim_{k \to \infty} \sum_w{\left[\frac{q(w)}{ \frac{p_{\theta}(w|c)}{k}+q(w)} \left(\tilde{p}(w|c)- p_{\theta}(w|c)\right)\frac{\partial}{\partial \theta}log u_{\theta}(w,c)\right]} \\ &= \sum_w{\left[\left(\tilde{p}(w|c)- p_{\theta}(w|c)\right)\frac{\partial}{\partial \theta}log u_{\theta}(w,c)\right]} \end{aligned} \tag {24}$

可以看到，當 $k$ 趨於無窮時， $(24)$ 式中 NCE 目標函數的梯度和 $(9)$ 式中 MLE 對數似然函數梯度是等價的，也就是說我們通過 NCE 轉換后的優化目標，本質上就是對極大似然估計方法的一種近似，並且隨着負樣本和正樣本數量比 $k$ 的增大，這種近似越精確，這也解釋了為什么作者建議我們將 $k$ 設置的越大越好。

4 從 NCE 到 InfoNCE

到目前為止，應該對 NCE 的來龍去脈比較清楚了（公式太多，不知道多少人有耐心看到這里了...）。

InfoNCE 是在 Representation Learning with Contrastive Predictive Coding 這篇論文中提出的，這里不會具體介紹 CPC ，而是着重說明如何借鑒 NCE 的思想提出 InfoNCE 並用於 CPC 中的，如果還不太了解的可以看我的這篇文章 ”對 CPC (對比預測編碼) 的理解“。

簡單來說，CPC(對比預測編碼) 就是一種通過無監督任務來學習(編碼)高維數據的特征表示(representation)，而通常采取的無監督策略就是根據上下文預測未來或者缺失的信息，NLP 中已經利用這種思想來學習 word 的 representation [1]。

要構建這樣的預測任務，一個方法是直接建模條件生成模型 $p(x_{t+k}|c_t)$ 根據當前上下文 $c_t$ 預測 $k$ 個時刻后的數據 $x_{t+k}$ （假設是像文本、語音中那樣的序列數據）；但作者覺得這樣的方法過於針對細節進行重建，並不是很好，於是引入了互信息的思想，認為我們可以通過最大化當前上下文 $c_t$ 和要未來的數據 $x_{t+k}$ 之間的互信息來構建預測任務，互信息的表示如下：

$\begin{aligned} I(x_{t+k} ; c_t)=\sum_{x, c} p(x_{t+k}, c_t) \log \frac{p(x_{t+k} \mid c_t)}{p(x_{t+k})} \end{aligned} \tag {25}$

我們沒辦法知道 $x_{t+k}$ 和 $c_t$ 之間的聯合分布 $p(x_{t+k},c_t)$ ，因此要最大化 $I(x_{t+k} ; c_t)$ ，就需要從 $\frac{p(x_{t+k} \mid c_t)}{p(x_{t+k})}$ 入手，即最大化 $\frac{p(x_{t+k} \mid c_t)}{p(x_{t+k})}$ 。

那么如何訓練 $\frac{p(x_{t+k} \mid c_t)}{p(x_{t+k})}$ 呢？我們可以把這個比例定義為密度比，那么根據附錄 3中的思想，分子 $p(x_{t+k}|c_t)$ 就相當於 $p_d$ ，是我們想得到的目標函數；分母 $p(x_{t+k})$ 就相當於 $p_n$ ，是用來進行對比的參考分布(噪聲)。因此，我們就可以根據 NCE 中提供的思路，將問題轉換為一個二分類的問題，更具體來解釋：

從條件 $p(x_{t+k} \mid c_t)$ 中取出數據稱為“正樣本”，它是根據上下文 $c_t$ 所做出的預測數據，將它和這個上下文一起組成“正樣本對”，類別標簽設為 1。
將從 $p(x_{t+k})$ 中取出的樣本稱為“負樣本”，它是與當前上下文 $c_t$ 沒有必然關系的隨機數據，將它和這個上下文 $c_t$ 一起組成“負樣本對”，類別標簽設為 0。
正樣本也就是與 $c_t$ 間隔固定步長 $k$ 的數據，根據 NCE 中說明的設定，正樣本選取 1 個；因為在 NCE 中證明了噪聲分布與數據分布越接近越好，所以負樣本就直接在當前序列中隨機選取（只要不是那一個正樣本就行），負樣本數量越多越好。

所以要做的就是訓練一個 logistics 分類模型，來區分這兩個正負樣本對。問題轉換后，訓練的模型能夠“成功分辨出每個正負樣本的能力”就等價於“根據 $c_t$ 預測 $x_{t+k}$ 的能力”。

根據 NCE 中的設置，現在假設給出一組大小為 $N$ 的 $X=\{x_1,\dots,x_N\}$ ，其中包含 $1$ 個從 $p(x_{t+k}|c_t)$ 中取樣正樣本和 $N-1$ 從一個指定分布(用於對比的噪聲分布) $p(x_{t+k})$ ，假設第 $x_i$ 是正樣本，且 $i=t+k$ ，上下文 $c_t$ 表示 $t$ 之前的數據，那么能夠正確的同時找到那一個正樣本 $x_{t+k}$ 和 $N-1$ 個負樣本的情況可以寫成如下形式：

$\begin{aligned} p\left(d=i \mid X, c_{t}\right)&=p(x_{t+k}|c_t)\\ &=\frac{p\left(x_{t+k} \mid c_{t}\right) \prod_{l \neq t+k} p\left(x_{l}\right)}{\sum_{j=1}^{N} p\left(x_{j} \mid c_{t}\right) \prod_{l \neq j} p\left(x_{l}\right)} \\ &=\frac{\frac{p\left(x_{t+k} \mid c_{t}\right)}{p\left(x_{t+k}\right)}}{\sum_{j=1}^{N} \frac{p\left(x_{j} \mid c_{t}\right)}{p\left(x_{j}\right)}} \end{aligned} \tag {26}$

我們最大化上面這個式子，即最大化模型“成功分辨出每個正負樣本的能力”，也就是最大化我們定義的密度比，也就是最大化 $c_t$ 與 $x_{t+k}$ 的互信息。

參考 $(5)$ 式，可以寫出根據 $c_t$ 預測 $x_{t+k}$ 的形式：

$\begin{aligned} p(x_{t+k}|c_t)&= \frac{exp(s_{\theta}(x_{t+k},c_t))}{\sum_{x_j \in X}exp(s_{\theta}(x_{j},c_t))} \\ \end{aligned} \tag {27}$

在上式中，我們知道 $s_{\theta}(x,c)$ 是一個 socring function ，輸出的分數用來量化 $x$ 在上下文 $c$ 中匹配性；放在這里 $s_{\theta}(x_{t+k},c_t)$ 也就是量化對 $x_{t+k}$ 預測的結果和真實結果的相似程度，CPC 文章中用余弦相似度來量化，並且將 $exp(s_{\theta}(x_{t+k},c_t))$ 定義為 $f_k(x_{t+k},c_t)$ ，也就是：

$\begin{aligned} p(x_{t+k}|c_t)&= \frac{f_k(x_{t+k},c_t)}{\sum_{x_j \in X}f_k(x_{j},c_t)} \\ \end{aligned} \tag {28}$

現在對比 $(26)(28)$ 兩個式子，這兩個式子的目標是一致的，也就意味着 $f_k(x_{t+k},c_t)$ 實際上就可以作為密度比 $\frac{p(x_{t+k} \mid c_t)}{p(x_{t+k})}$ 的一種表示形式，它們之間雖不直接等價，但是含義上是正相關的，即：

$\begin{aligned} f_k(x_{t+k},c_t)\propto\frac{p(x_{t+k}|c_t)}{p(x_{t+k})} \end{aligned} \tag {28}$

現在我們的優化目標就是使 $(26)$ 或 $(28)$ 式的結果最大，所以可以寫出對應形式的交叉熵損失如下：

$\begin{aligned} \mathcal{L}_{N}&=-\sum_{X}\left[p(x,c)\log \frac{f_{k}\left(x_{t+k}, c_{t}\right)}{\sum_{x_{j} \in X} f_{k}\left(x_{j}, c_{t}\right)}\right] \\ &=-\mathbb{E}_X\left[\log \frac{f_{k}\left(x_{t+k}, c_{t}\right)}{\sum_{x_{j} \in X} f_{k}\left(x_{j}, c_{t}\right)}\right] \\ \end{aligned} \tag {29}$

上式就是最終得到的 InfoNCE 損失函數了，並且最小化 InfoNCE，也就等價於最大化 $x_{t+k}$ 和 $c_t$ 之間互信息的下限，從而做到了我們所要求的最大化 $I\left(x_{t+k};c_{t}\right)$ ，證明如下，

$\begin{aligned} \mathcal{L}_{\mathrm{N}}^{\mathrm{opt}} &=-\underset{X}{\mathbb{E}} \log \left[\frac{\frac{p\left(x_{t+k} \mid c_{t}\right)}{p\left(x_{t+k}\right)}}{\frac{p\left(x_{t+k} \mid c_{t}\right)}{p\left(x_{t+k}\right)}+\sum_{x_{j} \in X_{\mathrm{neg}}} \frac{p\left(x_{j} \mid c_{t}\right)}{p\left(x_{j}\right)}}\right] \\ &=\underset{X}{\mathbb{E}} \log \left[1+\frac{p\left(x_{t+k}\right)}{p\left(x_{t+k} \mid c_{t}\right)} \sum_{x_{j} \in X_{\mathrm{neg}}} \frac{p\left(x_{j} \mid c_{t}\right)}{p\left(x_{j}\right)}\right] \\ & \approx \underset{X}{\mathbb{E}} \log \left[1+\frac{p\left(x_{t+k}\right)}{p\left(x_{t+k} \mid c_{t}\right)}(N-1) \underset{x_{j}}{\mathbb{E}} \frac{p\left(x_{j} \mid c_{t}\right)}{p\left(x_{j}\right)}\right] \\ &=\underset{X}{\mathbb{E}} \log \left[1+\frac{p\left(x_{t+k}\right)}{p\left(x_{t+k} \mid c_{t}\right)}(N-1)\right] \\ & \geq \underset{X}{\mathbb{E}} \log \left[\frac{p\left(x_{t+k}\right)}{p\left(x_{t+k} \mid c_{t}\right)} N\right] \\ &=-I\left(x_{t+k}, c_{t}\right)+\log (N) \end{aligned} \tag {30}$

到底為止，如何從由 NCE 結合互信息的思想構建 $(29)$ 式中的 InfoNCE 也清楚了，現在 InfoNCE 主要用在自監督學習中作為一個對比損失函數，實際上 InfoNCE 的這個思想也是可以作為互信息的一個估計器，在論文中也有證明它和另一個互信息估計器 MINE 之間的關系，這里就不再詳細說明了。

在使用 InfoNCE 時把它當作一個對比損失，那么分子上的 $(x_{t+k},c_t)$ 表示正樣本對，分母上的 $(x_j,c_t)$ 表示負樣本對，我們只要構建好正負樣本對，然后利用 InfoNCE 的優化過程，就可以做到使正樣本對之間的互信息最大，使負樣本對之間的互信息最小這件事情了：

$\begin{aligned} \mathcal{L}_{N}^{InfoNCE} &=-\mathbb{E}_X\left[\log \frac{f_{k}\left(x_{t+k}, c_{t}\right)}{\sum_{x_{j} \in X} f_{k}\left(x_{j}, c_{t}\right)}\right] \\ \end{aligned} \tag {31}$

后記

最初目的只是因為看到很多地方直接使用了 InfoNCE（實際上就是 CPC），但沒有說明詳細的原理，網上除了磊爺的文章[6]之外，很多都是浮於表面的解釋，遠不能解答我的疑惑，所以作為一個剛入門的小白，我還是想親自推導一下 InfoNCE 的以及它的來源 NCE 的原理，沒想到這個坑越挖越深，最后花的時間遠遠超出我的預期，導致一堆其他事情沒有做....好在最終還是按照我的理解基本弄清楚了（如果有哪里理解錯的地方，請告訴我），也不知道這樣做有沒有意義。

附錄 1——NCE 要解決的問題

實際上NCE 要解決的是歸一化參數密度估計問題。

假設現在有一組觀測樣本 $X=\{x_1,x_2,\dots,x_n\}$ ，它遵循一個未知的參數化概率密度函數 $p_d(.;\theta)$ ，參數密度估計問題就是根據觀測樣本 $X$ 找到一組最優參數 $\theta$ ，通常使用極大似然估計的方法。對於這個密度函數 $p_m(.;\theta)$ 的估計還需要滿足下面兩個約束條件：

$\int p(x;\theta)dx=1$
$p_m(.;\theta) ≥ 0$

如果同時滿足上面兩個約束條件，那么稱建模的密度函數是歸一化的；如果只滿足第 2 個正約束條件，那么稱其未歸一化。

在語言模型中說的 $Z(c)$ 在 NCE 實際上就是指，指的是 partition function，這里用 $Z(\theta)$ 表示，假設 $p_m^0(.;\theta)$ 為估計的未歸一化模型，則 $Z(\theta)=\int p_m^0(x;\theta)dx$ ，而將模型歸一化的方式就是： $\frac{p_m^0(.;\theta)}{Z(\theta)}$ 。而對於 $Z(\theta)$ ，除非 $p_m^0(.;\theta)$ 的形式特別簡單，否則是沒辦法寫出積分的解析解形式的，只能通過數值積分的方法來近似。這種數值積分對於低維問題是有較高的精度的，但是對於實際應用中的很多高維問題，在計算上就是非常昂貴甚至不可接受的。

附錄 2——將歸一化常數作為參數

這里解釋一下為什么可以將歸一化常數作為一個附加的參數呢。

附錄1中提到可以通過 $\frac{p_m^0(.;\theta)}{Z(\theta)}$ 來對 $p_m^0(.;\theta)$ 進行歸一化，實際上可以看作對 $p_m^0(.;\theta)$ 進行了一定的縮放，假設歸一化后的密度函數為 $p_m(.;\theta)$ ，則：

$\begin{aligned} \log p_m(.;\theta) &= \log \frac{p_m^0(.;\theta)}{Z(\theta)}\\ &=\log p_m^0(.;\theta)-\log Z(c) \end{aligned}$

因此我們可以把 $\log Z(c)$ 當成一個參數 $c$ ，也就是：

$\begin{aligned} \log p_m(.;\theta) &=\log p_m^0(.;\theta)-c \end{aligned}$

也就是學習一個參數 $c$ ，來對未歸一化的 $p_m^0(.;\theta)$ 進行大小為 $c$ 的縮放，最終達到歸一化的效果。

附錄 3——用噪聲進行對比的直覺

這里解釋一下用噪聲的分布進行對比的直覺。

按照 Gutmann and Hyvrinen(2012) [3] 中的解釋（如果真的先弄懂 NCE，強烈推薦閱讀一下這篇論文），估計數據的密度函數 $p(x)$ 實際上是確定觀測數據 $X$ 的屬性，而這種屬性一般需要相對於另一些參考數據(噪聲) $Y$ 的屬性來體現(描述)出來的。如果我們參考(噪聲)數據 $Y$ 是從概率密度函數為 $p_n$ 的分布中獨立同分布采樣出來的， $X$ 相對於 $Y$ 的屬性用它們的密度比 $p_d/p_n$ 來描述。那么如果相對數據 $Y$ 的分布 $p_n$ 已知，也就能通過 $p_d/p_n$ 來獲得 $X$ 的密度函數 $p_d$ 。話句話說，如果我們知道 $Y$ 的屬性，也知道了 $X$ 和 $Y$ $X$ 之間的差異，那么我們也就知道了 $X$ 的屬性。

所以 NCE 中通過訓練一個二分類器來對 $X$ 和 $Y$ 中的數據進行比較，為了區分出這兩個數據，分類器就會比較它們屬性的不同，換句話說，這個二分類也就學到了 $X$ 和 $Y$ 之間的差異，而這個差異根據 $(14)(15)$ 式的推導，也確實符合 $p_d/p_n$ 的形式的，實際上也就是訓練了 logistic 分類器。

參考文獻

[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

[2] Michael Gutmann and Aapo Hyvärinen. 2010. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In Proc. AISTATS.

[3] Gutmann, M.U. and Hyv¨ arinen, A. Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics. Journal of Machine Learning Research, 13:307–361, 2012.

[4] Andriy Mnih and Y ee Whye Teh. 2012. A fast and simple algorithm for training neural probabilistic language models. In Proc. ICML.

[5] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018.

[6] Leo Mao. 2019. "Noise-Contrastive-Estimation". [online]. https://leimao.github.io/article/Noise-Contrastive-Estimation/

[7] Dyer, C. (2014). Notes on Noise Contrastive Estimation and Negative Sampling. arXiv:1410.8251 [cs].

[8] Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, “A Neural Probabilistic Language Model,” p. 19.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Noise Contrastive Estimation NCE損失(Noise-Constrastive Estimation Loss) Chapter 9:Noise-Estimation Algorithms 圖像噪聲水平估計——An Efficient Statistical Method for Image Noise Level Estimation contrastive loss GraphicsLab Project 之 Curl Noise Contrastive Predictive Coding(CPC) Fluid Motion by Curl Noise IMU Noise Model Contrastive Loss (對比損失)