注意力機制
橙色與綠色:輸入的兩個query。 K:key。 V:value
連線為權重,離的近的相似度高,同時權重就高,然后用權重乘以value就得到輸出向量
多頭注意力機制
MASK掩碼:對t時刻(紅色筆記)之后的數值,設為很大的負數(綠色筆記),從而將softmax變成0,起到只關注t時刻之前所有數據的作用
右邊為多頭注意力機制
注意力機制
橙色與綠色:輸入的兩個query。 K:key。 V:value
連線為權重,離的近的相似度高,同時權重就高,然后用權重乘以value就得到輸出向量
多頭注意力機制
MASK掩碼:對t時刻(紅色筆記)之后的數值,設為很大的負數(綠色筆記),從而將softmax變成0,起到只關注t時刻之前所有數據的作用
右邊為多頭注意力機制
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。