各种预训练语言模型介绍
一.ElMO 背景:Word2vec,glove和fasttext虽然能表示语义和语法信息,但是并不能够区分一词多义 网络建构: 两个单向的LSTM进行拼接,把每层拼接的中间结果之和 ...
一.ElMO 背景:Word2vec,glove和fasttext虽然能表示语义和语法信息,但是并不能够区分一词多义 网络建构: 两个单向的LSTM进行拼接,把每层拼接的中间结果之和 ...
1.什么是Bert? Bert用我自己的话就是:使用了transformer中encoder的两阶段两任务两版本的语言模型 没错,就是有好多2,每个2有什么意思呢? 先大体说一下,两阶段是指预训 ...