各種attention注意力機制之間的比較


1、Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, Yoshua Bengio ; Proceedings of the 32nd International Conference on Machine Learning, PMLR 37:2048-2057, 2015.

這篇文章中提出了hard attention與soft attention兩種注意力機制,二者的通用計算框架相同,區別在於注意力計算方式的不同:

1)通用計算框架

步驟一:

yt-1表示熱編碼的詞向量,ht表示隱藏層,Zt表示(頭部有箭頭)上下文向量 

 

軟、硬注意力的主要區別在於φ函數的計算方式的不同,ai表示抽取出的圖像特征向量。

 

 

 

說完“硬”的 attention,再來說說“軟”的 attention。 相對來說 soft attention 很好理解,在 hard attention 里面,每個時刻 t 模型的序列 [ St1,…,StL ] 只有一個取 1,其余全部為 0,

也就是說每次只 focus 一個位置,而 soft attention 每次會照顧到全部的位置,只是不同位置的權重不同罷了。這時 Zt 即為 ai 的加權求和:  

參考:https://blog.csdn.net/u011414416/article/details/51057789 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM