機器翻譯注意力機制及其PyTorch實現

本文轉載自查看原文 2019-06-21 17:47 1247

前面闡述注意力理論知識，后面簡單描述PyTorch利用注意力實現機器翻譯

Effective Approaches to Attention-based Neural Machine Translation

簡介

Attention介紹

在翻譯的時候，選擇性的選擇一些重要信息。詳情看這篇文章。

本着簡單和有效的原則，本論文提出了兩種注意力機制。

Global

每次翻譯時，都選擇關注所有的單詞。和Bahdanau的方式有點相似，但是更簡單些。簡單原理介紹。

Local

每次翻譯時，只選擇關注一部分的單詞。介於soft和hard注意力之間。(soft和hard見別的論文)。

優點有下面幾個

比Global和Soft更好計算
局部注意力隨處可見、可微，更好實現和訓練。

應用范圍

在訓練神經網絡的時候，注意力機制應用十分廣泛。讓模型在不同的形式之間，學習對齊等等。有下面一些領域：

機器翻譯
語音識別
圖片描述
between image objects and agent actions in the dynamic control problem (不懂，以后再說吧)

神經機器翻譯

思想

輸入句子 $x = (x_{1}, x_{2}, \dots, x_{n})$

神經機器翻譯(Neural machine translation, NMT)，利用神經網絡，直接對 $p (y ∣ x)$

Encoder把輸入句子 $x$

概率計算

結合Decoder上一時刻的隱狀態 $h_{j - 1}$

$g$

本論文的模型

本論文采用stack LSTM的構建NMT系統。如下所示：

訓練目標是 ${Jt=\sum(x,y)-logp(y∣x)Jt=\sum(x,y)-logp(y∣x)}_{t=\sum(x,y)-logp(y∣x)Jt=\sum(x,y)-logp(y∣x)}$

注意力模型

注意力模型廣義上分為global和local。Global的attention來自於整個序列，而local的只來自於序列的一部分。

解碼總體流程

Decoder時，在時刻 $t$

最頂層LSTM的隱狀態 $h_{t}$
計算帶有原句子信息語義向量 $c_{t}$
串聯 $h_{t}, c_{t}$
通過注意力隱狀態得到預測概率 $p (y_{t} ∣ y_{< t}, x) = s o f t m a x (W_{s} {\hat{h}}_{t})$

Global Attention

總體思路

在計算 $c_{t}$

對齊向量 $α_{t}$

score計算

$s c o r e (h_{t}, {\bar{h}}_{s})$

生成每個目標單詞的時候，都必須注意所有的原單詞，這樣計算量很大，翻譯長序列可能很難，比如段落或者文章。

Local Attention

在生成目標單詞的時候，Local會選擇性地關注一小部分原單詞去計算 $α_{t}, c_{t}$

Soft和Hard注意

Soft 注意 ：類似global注意，權值會放在圖片的所有patches中。計算復雜。

Hard 注意：不同時刻，會選擇不同的patch。雖然計算少，但是non-differentiable，並且需要復雜的技術去訓練模型，比如方差減少和強化學習。

Local注意

類似於滑動窗口，計算一個對齊位置 $p_{t}$

對齊位置選擇

對齊位置的選擇就很重要，主要有兩種辦法。

local-m (monotonic) 設置位置，即以當前單詞位置作為對齊位置 ${pt=tpt=tlocal-p (predictive) 預測位置}_{t=tpt=tlocal-p (predictive) 預測位置}$

$S$

$α_{t}$

計算對齊概率： ${αt(s)=align(ht,¯hs)exp(-(s-μ)22σ2)=align(ht,¯hs)exp(-2(s-pt)2D2)αt(s)=align(ht,h¯s)exp(-(s-μ)22σ2)=align(ht,h¯s)exp(-2(s-pt)2D2)}_{t(s)=align(ht,¯hs)exp(-(s-μ)22σ2)=align(ht,¯hs)exp(-2(s-pt)2D2)αt(s)=align(ht,h¯s)exp(-(s-μ)22σ2)=align(ht,h¯s)exp(-2(s-pt)2D2)}$

Input-feeding

前面的Global和Local兩種方式中，在每一步的時候，計算每一個attention (實際上是指 ${\hat{h}}_{t}$

在每一步的計算中，這些attention應該有所關聯，當前知道之前的attention才對。實際是應該有個coverage set去追蹤之前的信息。

我們會把當前的注意 ${\hat{h}}_{t}$

這樣有兩重意義：

模型會知道之前的對齊選擇
會建立一個水平和垂直都很深的網絡

PyTorch實現機器翻譯

機器翻譯github源代碼

計算輸入語義

比較簡單，使用GRU進行編碼，使用outputs作為哥哥句子的編碼語義。PyTorch RNN處理變長序列

def forward(self, input_seqs, input_lengths, hidden=None):
 ''' 對輸入的多個句子經過GRU計算出語義信息
 1. input_seqs > embeded
 2. embeded - packed > GRU > outputs - pad -output
 Args:
 input_seqs: [s, b]
 input_lengths: list[int]，每個batch句子的真實長度
 Returns:
 outputs: [s, b, h]
 hidden: [n_layer, b, h]
 '''
 # 一次運行，多個batch，多個序列
 embedded = self.embedding(input_seqs)
 packed = nn.utils.rnn.pack_padded_sequence(embedded, input_lengths)
 outputs, hidden = self.gru(packed, hidden)
 outputs, output_length = nn.utils.rnn.pad_packed_sequence(outputs) 
 # 雙向，兩個outputs求和
 if self.bidir is True:
 outputs = outputs[:, :, :self.hidden_size] + outputs[:, :, self.hidden_size:]
 return outputs, hidden

計算對齊向量

實際上就是attn_weights，也就是輸入序列對當前要預測的單詞的一個注意力分配。

輸入輸出定義

Encoder的輸出，所有語義 $c$

當前時刻Decoder的 $h_{t}$

def forward(self, rnn_outputs, encoder_outputs):
 '''ts個時刻，計算ts個與is的對齊向量，也是注意力權值
 Args:
 rnn_outputs -- Decoder中GRU的輸出[ts, b, h]
 encoder_outputs -- Encoder的最后的輸出, [is, b, h]
 Returns:
 attn_weights -- Yt與所有Xs的注意力權值，[b, ts, is]
 '''

計算得分

使用gerneral的方式，先過神經網絡(線性層)，再乘法計算得分

# 過Linear層 (b, h, is)
encoder_outputs = self.attn(encoder_outputs).transpose(1, 2)
# [b,ts,is] < [b,ts,h] * [b,h,is]
attn_energies = rnn_outputs.bmm(encoder_outputs)

softmax計算對齊向量

每一行都是原語義對於某個單詞的注意力分配權值向量。對齊向量實際例子

1
2
3

# [b,ts,is]
attn_weights = my_log_softmax(attn_energies)
return attn_weights

計算新的語義

新的語義也就是，對於翻譯單詞 $w_{t}$

輸入輸出

def forward(self, input_seqs, last_hidden, encoder_outputs):
 '''
 一次輸入(ts, b)，b個句子, ts=target_seq_len
 1. input > embedded 
 2. embedded, last_hidden --GRU-- rnn_output, hidden
 3. rnn_output, encoder_outpus --Attn-- attn_weights
 4. attn_weights, encoder_outputs --相乘-- context
 5. rnn_output, context --變換,tanh,變換-- output 
 Args:
 input_seqs: [ts, b] batch個上一時刻的輸出的單詞，id表示。每個batch1個單詞
 last_hidden: [n_layers, b, h]
 encoder_outputs: [is, b, h]
 Returns:
 output: 最終的輸出，[ts, b, o]
 hidden: GRU的隱狀態，[nl, b, h]
 attn_weights: 對齊向量，[b, ts, is]
 '''

當前時刻Decoder的隱狀態

輸入上一時刻的單詞和隱狀態，通過GRU，計算當前的隱狀態。實際上ts=1

1 2	# (ts, b, h), (nl, b, h) rnn_output, hidden = self.gru(embedded, last_hidden)

計算對齊向量

當前時刻的隱狀態 rnn_output 和源句子的語義encoder_outputs，計算對齊向量。對齊向量

每一行都是原句子對當前單詞(只有一行)的注意力分配。

# 對齊向量 [b,ts,is]
attn_weights = self.attn(rnn_output, encoder_outputs)
# 如
[0.1, 0.2, 0.7]

計算新的語義

原語義和原語義對當前單詞分配的注意力，計算當前需要的新語義。

1
2
3

# 新的語義 
# [b,ts,h] < [b,ts,is] * [b,is,h]
context = attn_weights.bmm(encoder_outputs.transpose(0, 1))

預測當前單詞

結合新語義和當前隱狀態預測新單詞

# 語義和當前隱狀態結合 [ts, b, 2h] < [ts, b, h], [ts, b, h]
output_context = torch.cat((rnn_output, context), 2)
# [ts, b, h] 線性層2h-h
output_context = self.concat(output_context)
concat_output = F.tanh(output_context)
# [ts, b, o] 線性層h-o
output = self.out(concat_output)
output = my_log_softmax(output)
return output

總結

# 1. 對齊向量
# 過Linear層 (b, h, is)
encoder_outputs = self.attn(encoder_outputs).transpose(1, 2)

# 關聯矩陣 [b,ts,is] < [b,ts,h] * [b,h,is]
attn_energies = rnn_outputs.bmm(encoder_outputs)
# 每一行求softmax [b,ts,is] 
'''每一行都是原語義對當前單詞的注意力分配向量'''
attn_weights = my_log_softmax(attn_energies)

# 2. 新語義
# 新的語義 [b,ts,h] < [b,ts,is] * [b,is,h]
context = attn_weights.bmm(encoder_outputs.transpose(0, 1))

# 3. 新語義和當前隱狀態結合，輸出
# 語義和輸出 [ts, b, 2h] < [ts, b, h], [ts, b, h]
output_context = torch.cat((rnn_output, context), 2)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TensorFlow從1到2（十）帶注意力機制的神經網絡機器翻譯 RNN與應用案例：注意力模型與機器翻譯 PyTorch實現機器翻譯 transformer中自注意力和多頭注意力的pytorch實現注意力機制總結注意力機制整理 transformer多頭注意力的不同框架實現（tensorflow+pytorch） PyTorch實現Seq2Seq機器翻譯各種attention注意力機制之間的比較 Self-attention（自注意力機制）