花费 5 ms
Transformer的原理及实现

transformer是谷歌2017年发表的 attention is all you need 中提到的seq2seq模型,我们常用的Bert和GPT等都是基于transformer衍生的。本 ...

Sat Jan 29 05:33:00 CST 2022 0 994
Bert的原理及实现

Bert实际上就是通过叠加多层transformer的encoder(transformer的介绍可以看我的这篇文章)通过两个任务进行训练的得到的。本文参考自BERT 的 PyTorch 实现, ...

Sat Feb 05 03:27:00 CST 2022 0 835

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM