多头注意力机制


注意力机制

橙色与绿色:输入的两个query。  K:key。  V:value

连线为权重,离的近的相似度高,同时权重就高,然后用权重乘以value就得到输出向量

 

 

多头注意力机制

MASK掩码:对t时刻(红色笔记)之后的数值,设为很大的负数(绿色笔记),从而将softmax变成0,起到只关注t时刻之前所有数据的作用

右边为多头注意力机制

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM