标签【经典模型】

花费 6 ms

Transformer的原理及实现

transformer是谷歌2017年发表的 attention is all you need 中提到的seq2seq模型，我们常用的Bert和GPT等都是基于transformer衍生的。本 ...

Bert的原理及实现

Bert实际上就是通过叠加多层transformer的encoder(transformer的介绍可以看我的这篇文章)通过两个任务进行训练的得到的。本文参考自BERT 的 PyTorch 实现, ...