Transformer block拆解 - 碼上歡樂

相關內容簡體繁體

Transformer block拆解

本文轉載自查看原文 2021-07-26 18:54 167 機器學習

Transformer block拆解

基本結構

Alt text

basic參數

or : total number of transformer blocks

or : number of units in each bottleneck layer, and number of units of each Q/K/V input

or : number of heads of each transformer block

or : input sequence length

derived參數

: dimension of each attention head,

: intermediate layer units of feed forward layer,

各參數在transformer block中的詳細示意圖如下(可雙擊放大)：

Alt text

Zoom in Feed Forward子模塊

Alt text

典型模型基本參數

應用	模型
NLP	GPT-3	96	12288	96	2048
NLP	BERT_Base	12	768	12	128/512
NLP	BERT_Large	24	1024	16	128/512
RecSys	BST	1	128(max)	8	20

BST: Behavior Sequence Transformer

References

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Transformer Transformer transformer Transformer transformer Transformer transformer Transformer transformer 【數字拆解】

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM