NLP面試問題個人總結-交叉熵&RNN

本文轉載自查看原文 2020-03-14 17:59 818 深度學習

1 列出幾種文本特征提取算法

答：文檔頻率、信息增益、互信息、X^2統計、TF-IDF

(引用自:https://www.cnblogs.com/jiashun/p/CrossEntropyLoss.html)

信息:

由於概率I 是一個）0至1的值，所以當事件發生的概率越大時，信息量越小。

相對熵:

相對熵又稱KL散度(Kullback-Leibler (KL) divergence)，用於衡量對於同一個隨機變量x的兩個單獨的概率分布P(x)和Q(x)之間的差異。

KL散度的值越小表示兩個分布越接近.

在一定程度上面，相對熵可以度量兩個隨機分布的距離。也常常用相對熵來度量兩個隨機分布的距離。當兩個隨機分布相同的時候，他們的相對熵為0，當兩個隨機分布的差別增大的時候，他們之間的相對熵也會增大。

熵:

是表示隨機變量不確定的度量，是對所有可能發生的事件產生的信息量的期望。

信息增益:

分類前的信息熵減去分類后的信息熵

交叉熵:

我們將KL散度公式進行變形得到：

這里前半部分是事件P自己的信息熵, 后面那部分可以作為事件P和事件q的信息熵(交叉)

交叉熵廣泛用於邏輯回歸的Sigmoid和Softmax函數中作為損失函數使用。

二分類交叉熵誤差:

模型最后需要預測的結果只有兩種情況，對於每個類別我們的預測得到的概率為 $p$ 和 $1-p$ 。此時表達式為：

意思就是每個類別都做一個信息熵的計算,然后加起來,(目的最小)

同樣，預測輸出越接近真實樣本標簽 0，損失函數 L 越小；預測函數越接近 1，L 越大。函數的變化趨勢也完全符合實際需要的情況

多分類交叉熵誤差：

M表示標簽的種類數

交叉熵誤差函數和softmax（神經網絡用到的輸出函數）和sigmoid函數（logistic回歸用到的函數）的復合函數是凸函數，即存在全局最優解

2 RNN基本原理

（引用自：https://zhuanlan.zhihu.com/p/32755043）

RNN循環神經元的計算過程:

將輸入時間步提供給網絡，也就是提供給網絡 $x_t$ 。
接下來利用輸入和前一時刻的狀態計算當前狀態，也就是 $h_t$
當前狀態變成下一步的前一狀態 $h_{t-1}$
我們可以執行上面的步驟任意多次（主要取決於任務需要），然后組合從前面所有步驟中得到的信息。
一旦所有時間步都完成了，最后的狀態用來計算輸出 $y_t$
輸出與真實標簽進行比較並得到誤差。
誤差通過后向傳播（后面將介紹如何后向傳播）對權重進行升級，進而網絡訓練完成。

反向傳播:

首先使用預測輸出和實際輸出計算交叉熵誤差
網絡按照時間步完全展開
對於展開的網絡，對於每一個實踐步計算權重的梯度
因為對於所有時間步來說，權重都一樣，所以對於所有的時間步，可以一起得到梯度（而不是像神經網絡一樣對不同的隱藏層得到不同的梯度）
隨后對循環神經元的權重進行升級

交叉熵誤差:

$E_t(\hat y_t,y_t) = – \hat y_t log(y_t)$

$E(\hat y,y) = – \sum \hat y_t log(y_t)$

梯度消失和梯度爆炸問題都是因為網絡太深，網絡權值更新不穩定造成的，本質上是因為梯度反向傳播中的連乘效應。對於更普遍的梯度消失問題，可以考慮一下三種方案解決：

用ReLU、Leaky-ReLU、P-ReLU、R-ReLU、Maxout等替代sigmoid函數。
用Batch Normalization。
LSTM的結構設計也可以改善RNN中的梯度消失問題。

梯度爆炸問題和消失問題:

RNN基於這樣的機制，信息的結果依賴於前面的狀態或前N個時間步。普通的RNN可能在學習長距離依賴性方面存在困難。例如，如果我們有這樣一句話，“The man who ate my pizza has purple hair”。在這種情況下，purple hair描述的是The man，而不是pizza。所以這是一個長距離的依賴關系。

如果我們在這種情況下后向傳播，我們就需要應用鏈式法則。在三個時間步后對第一個求梯度的公式如下：

∂E/∂W = ∂E/∂y3* ∂y3/∂h3* ∂h3/∂y2 *∂y2/∂h1 .. 這就是一個長距離的依賴關系.

在這里，我們應用了鏈式規則，如果任何一個梯度接近0，所有的梯度都會成指數倍的迅速變成零。這樣將不再有助於網絡學習任何東西。這就是所謂的消失梯度問題。

同理:

梯度爆炸就是由於單個或多個梯度值變得非常高，梯度變得非常大。