多頭注意力機制


注意力機制

橙色與綠色:輸入的兩個query。  K:key。  V:value

連線為權重,離的近的相似度高,同時權重就高,然后用權重乘以value就得到輸出向量

 

 

多頭注意力機制

MASK掩碼:對t時刻(紅色筆記)之后的數值,設為很大的負數(綠色筆記),從而將softmax變成0,起到只關注t時刻之前所有數據的作用

右邊為多頭注意力機制

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM