Transformer block拆解 - 码上欢乐

相关内容简体繁体

Transformer block拆解

本文转载自查看原文 2021-07-26 18:54 167 机器学习

Transformer block拆解

基本结构

Alt text

basic参数

or : total number of transformer blocks

or : number of units in each bottleneck layer, and number of units of each Q/K/V input

or : number of heads of each transformer block

or : input sequence length

derived参数

: dimension of each attention head,

: intermediate layer units of feed forward layer,

各参数在transformer block中的详细示意图如下(可双击放大)：

Alt text

Zoom in Feed Forward子模块

Alt text

典型模型基本参数

应用	模型
NLP	GPT-3	96	12288	96	2048
NLP	BERT_Base	12	768	12	128/512
NLP	BERT_Large	24	1024	16	128/512
RecSys	BST	1	128(max)	8	20

BST: Behavior Sequence Transformer

References

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Transformer transformer Transformer transformer 【数字拆解】【拆解】苹果耳机2代 Transformer模型图解 Transformer Transformer简介 Swin Transformer

粤ICP备18138465号 © 2018-2026 CODEPRJ.COM