Notes | Bert系列的預訓練模型


參考:

李宏毅《深度學習人類語言處理》

 

ELMo  Embeddings from Language Models

BERT  Bidirectional Encoder Representations from Transformers

ERNIE  Enhanced Representation through Knowledge Integration

Grover  Generating aRticles by Only Viewing mEtadata Records

Big Bird  Big Bird: Transformers for Longer Sequences

 

共同點:

contxtualized word embedding (base model):

  1. LSTM
  2. Self-attention layers
  3. Tree-based models (注重文法,但一般表現不佳,只有在文法結構非常清晰嚴謹的情況下表現好)

 

模型變小

  • Distill BERT
  • Tiny BERT
  • Mobile BERT
  • Q8BERT
  • ALBERT

 

小模型方法:

Network Compression

  • Network Pruning  剪枝
  • Knowledge Distillation  知識蒸餾
  • Parameter Quantization  參數量化
  • Architecture Design  結構設計

 

網絡結構改進

Transformer-XL (XLNet使用):跨塊級結構的attention,不僅局限於max-len(512)的長度

Reformer、Longformer、Big Bird:減少self-attention的復雜度

 

訓練方法

Predict Next Token (self-supervised):

language models:

LSTM:

  • ELMo (雙向LSTM)

 

  不是真正的雙向,預測一個token時,不是真正地看到兩邊的內容,而是兩個單向LSTM能力的拼接。

 

  • Universal Language Model Fine-tuning (ULMFiT)

 

Self-attention:

這里可以attention的位置要有約束(目標是預測下一個token,不能看到未來的token答案)

綠色部分是可以attention的部分。

 

  • GPT系列
  • Megatron
  • BERT (mask機制,用transformer作為encoder,預測某一個masked token時,可以看到上下文信息,類似CBOW的思想)

 

Span Boundary Objective (SBO)

SpanBERT提出,用mask的一個完整span的左右邊界來預測span內指定的某一個masked token。

 

 

預測token是否被mask

ELECTRA: Efficiently Learning an Encoder thtat Classifies Token Replacements Accurately

 

 

 

預測是否被是被小BERT置換過的詞:

其中,小BERT模型隨機選一個token進行mask,small BERT為這個masked token還原成它認為對的詞。

 

NSP 預測是否是下一個句子

BERT:Next sentence prediction

RoBERTa 指出該預測方法沒有用。

 

SOP Sentence order prediction

ALBERT中使用。

structBERT (Alice) 有用到類似的 (將 NSP 與 SOP 結合)

 

Mask機制改進

whole word masking(WWM) 整個詞的mask

ERNIE: Phrase-level & Entity-level   短語&命名實體級別

SpanBert: 蓋住n個token

 

seq2seq model

破壞輸入進行預測:

MASS: MAsked Sequence to Sequence pre-training(下圖紅框)

BART: Bidirectional and Auto-Regressive Transformers(下圖藍框)

 

BART給出了更多破壞輸入進行預測的方式。

結論:Permutation 和 Rotation的效果不好;Text Infilling的效果好。

 

UniLM:模型可以是encoder decoder seq2seq的任意模型

同時進行多種訓練:

  • Bidirectional LM
  • Left-to-Right LM
  • Seq-to-Seq LM

 

預訓練方法對比:

Transfer Text-to-Text Transformer (T5)  ,其中的訓練集為C4。

加入知識:

清華的ERNIE。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM