第五課第四周筆記3:Multi-Head Attention多頭注意力


Multi-Head Attention多頭注意力

讓我們進入並了解多頭注意力機制。 符號變得有點復雜,但要記住的事情基本上只是你在上一個視頻中學到的自我注意機制的四個大循環。 讓我們看一下每次計算自我注意力的序列時,稱為頭部。

因此,多頭注意力這個名稱指的是你是否按照上一個視頻中看到的方式進行操作,但有很多次讓我們來看看它是如何工作的。請記住,您通過將每個輸入項乘以幾個矩陣 WQ WK 和 WV 得到了每個輸入項的向量 Q K 和 V使用多頭注意力,您將同一組query key 和 value向量作為輸入。所以q,k,v值寫在這里,並計算多個self attention。

  1. 所以第一個,你將 k、q、v 矩陣與權重矩陣相乘,w1q、w1k 和 w1v。所以這三個值為你提供了一組新的第一個query key 和 value向量字。你對其他每個詞都做同樣的事情。為直觀起見,您可能會發現將w1q、w1k 和 w1v對於提問和回答問題what's happening?這個問題的學習方法是有用的。所以這或多或少是我們在上一個視頻中前面介紹的自我注意示例。完成后你可能會想,我們有wq,w1q、w1k 和 w1v,我學習希望你問和回答這個問題:what's happening?

  2. 因此,通過這種計算,單詞 [FOREIGN] 給出了正在發生的事情的最佳答案,這就是為什么我在這里用藍色箭頭突出顯示以表示 [FOREIGN] 鍵之間的內積具有最高值[FOREIGN] 的q,這是我們要問的第一個問題。所以這就是你如何得到 [FOREIGN] 的表示,你對 Jane、[FOREIGN] 和其他詞 [FOREIGN] [FOREIGN] 做同樣的事情。所以你最終*用五個向量來表示序列中的五個單詞。

所以這是你在多頭注意力中使用的幾個頭中的第一個執行的計算。

因此,您將逐步執行我們剛才對 [FOREIGN] 和其他單詞進行的完全相同的計算,並最終得到相同的注意力值,即我們在上一個視頻中使用的從 1 到 5。但現在我們將不止一次這樣做,而是幾次。所以我們現在可能有八個頭,而不是一個頭,這意味着整個計算可能執行八次。

  1. 到目前為止,我們已經用這些矩陣中的第一個頭部表示的第一個頭部計算了這個注意力量。注意力方程就是這個,你之前在上一個視頻中也看到過。
  2. 現在,讓我們用第二個頭來做這個計算。第二個頭將有一組新的矩陣。我將編寫 WQ2、WK2 和 WV2,以允許此機制提出和回答第二個問題。所以第一個問題是發生了什么?也許第二個問題是什么時候發生的事情?因此,在一般情況下,這里不是 W1,而是 Wi,我現在將第一個頭后面的第二個頭放在紅色顯示的第二個頭上。所以你重復一個與第一個完全相同的計算,但用這組新矩陣代替。在這種情況下,您最終可能會得到 september 鍵和 [FOREIGN] 查詢之間的內積將具有最高的內積。因此,我將突出顯示這個紅色箭頭,以表明 9 月的值將在 [FOREIGN] 表示的第二部分中發揮重要作用。
  3. 或許我們現在要問的第三個問題,以WQ3、WK3和WV3為代表,是誰,誰與非洲有關系?在這種情況下,當您第三次執行此計算時,可能 Jane 的鍵向量和 [FOREIGN] 查詢向量之間的內積將是最高的,並且在此處自我突出顯示此黑色箭頭。這樣 Jane 的值在我現在放在后面的這個表示中將具有最大的權重。在文獻中,正面的數量通常用小寫字母H表示。因此H等於正面的數量。

您可以將這些head中的每一個視為不同的特征。 當你將這些特征傳遞給一個新的網絡時,你可以計算出非常豐富的句子表示。 計算三個head或八個head或任何數字的這些計算,這三個值或 A 值的串聯用於計算多頭注意力的輸出。 所以最終值是所有這些 h 頭的串聯

然后最后乘以矩陣 W。 現在還有一個值得記住的細節是,在多頭注意力的描述中,我描述了為不同的頭計算這些不同的值,就好像你會在一個四大循環中做它們一樣。從概念上講,這樣想是可以的。但在實踐中,您實際上可以並行計算這些不同頭的值,因為沒有一個值取決於任何其他頭的值。因此,就其實現方式而言,您實際上可以並行而不是順序計算所有頭。然后將它們連接起來乘以 W 零。還有你的多頭注意力。現在,幻燈片上有很多事情要做。感謝您一直陪伴我直到本視頻結束。在下一個視頻中,我將使用簡化的圖標。我們將在這里使用這個小圖來表示這個多頭計算。所以它需要輸入矩陣 Q、K 和 V。所以這些值在此處並在此處輸出此值。所以在下一個視頻中,當我們將其放入完整的 Transformer 網絡時,我將使用這張小圖片來表示幻燈片上表示的所有這些計算。那么,恭喜。在上一個視頻中,您了解了自我注意。通過多次這樣做,您現在了解了多頭注意力機制,它可以讓您對每個單詞提出多個問題,並為每個單詞學習更豐富、更好的表示。現在讓我們把所有這些放在一起來構建變壓器網絡。讓我們轉到下一個視頻來看看。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM