from mxnet import nd h_forward = nd.array([1,2]) h_backward = nd.array([3,4]) h_bi = nd.concat(h_forward,h_backward,dim=0) print(h_bi)
[1. 2. 3. 4.]
<NDArray 4 @cpu(0)>
不同時刻,C內h1,h2,h3所占的權重不同,權重是a。權重的求法用了softmax。e的求法和St-1和ht有關。
不同的注意力機制就是對a的設計不同。
原論文的e的取法如下圖。
v,W是要學習的參數,有點像多層感知機。