B站動手學深度學習第十八課：seq2seq（編碼器和解碼器）和注意力機制

本文轉載自查看原文 2019-07-11 22:53 681 數據挖掘，機器學習/ Tensorflow，Keras/ 神經網絡，圖像識別

from mxnet import nd
h_forward = nd.array([1,2])
h_backward = nd.array([3,4])
h_bi = nd.concat(h_forward,h_backward,dim=0)
print(h_bi)

[1. 2. 3. 4.]
<NDArray 4 @cpu(0)>

不同時刻，C內h1,h2,h3所占的權重不同，權重是a。權重的求法用了softmax。e的求法和St-1和ht有關。

不同的注意力機制就是對a的設計不同。

原論文的e的取法如下圖。

v，W是要學習的參數，有點像多層感知機。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 動手學pytorch-注意力機制和Seq2Seq模型 seq2seq通俗理解----編碼器和解碼器(TensorFlow實現) 深度學習之注意力機制（Attention Mechanism）和Seq2Seq Seq2Seq模型與注意力機制具有注意力機制的seq2seq模型機器學習（ML）十二之編碼解碼器、束搜索與注意力機制 pytorch做seq2seq注意力模型的翻譯 Pytorch系列教程-使用Seq2Seq網絡和注意力機制進行機器翻譯 NLP與深度學習（三）Seq2Seq模型與Attention機制深度學習之seq2seq模型以及Attention機制