針對機器翻譯,提出 RNN encoder-decoder.
encoder與decoder是兩個RNN,它們放在一起進行參數學習,最大化條件似然函數。
網絡結構:
注意輸入語句與輸出語句長度不一定相同。
在encoder端,t時刻的隱藏狀態h表示為 t-1時刻的h 以及t時刻的輸入x的函數,直到輸入走完,最后一個hidden state h認為是這個句子的一個summary,記為上下文c。
在decoder端,t時刻的隱藏狀態h表示為 t-1時刻的h,t-1時刻的預測輸出y以及輸入的上下文c的函數
優化目標:
關於h的計算:
t時刻的h表示為t-1時刻 h的函數,其中又有 reset gate和 update gate來控制長短時的記憶效果
reset gate與 update gate:
看得出來r與z每個元素的計算都是由一個sigmoid函數輸出,控制在0-1之間。







