B站動手學深度學習第十八課:seq2seq(編碼器和解碼器)和注意力機制


 

 

 

from mxnet import nd
h_forward = nd.array([1,2])
h_backward = nd.array([3,4])
h_bi = nd.concat(h_forward,h_backward,dim=0)
print(h_bi)
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)>

 

不同時刻,C內h1,h2,h3所占的權重不同,權重是a。權重的求法用了softmax。e的求法和St-1和ht有關。

不同的注意力機制就是對a的設計不同。

原論文的e的取法如下圖。

v,W是要學習的參數,有點像多層感知機。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM