一、前述
架構:

問題:
1、壓縮會損失信息

2、長度會影響准確率

解決辦法:
Attention機制:聚焦模式
“高分辨率”聚焦在圖片的某個特定區域並以“低分辨率”,感知圖像的周邊區域的模式。通過大量實驗證明,將attention機制應用在機器翻譯,摘要生成,閱讀理解等問題上,取得的成效顯著。
比如翻譯:“”知識”只是聚焦前兩個字。

每個C取不同的概率和值:

Bucket機制:
正常情況要對所有句子進行補全,Bucket可以先分組,再計算。比如第一組計算輸入[0-10],輸出[0-10]。
