參考:
ELMo Embeddings from Language Models
BERT Bidirectional Encoder Representations from Transformers
ERNIE Enhanced Representation through Knowledge Integration
Grover Generating aRticles by Only Viewing mEtadata Records
Big Bird Big Bird: Transformers for Longer Sequences
共同點:
contxtualized word embedding (base model):
- LSTM
- Self-attention layers
- Tree-based models (注重文法,但一般表現不佳,只有在文法結構非常清晰嚴謹的情況下表現好)
模型變小
- Distill BERT
- Tiny BERT
- Mobile BERT
- Q8BERT
- ALBERT
小模型方法:
Network Compression
- Network Pruning 剪枝
- Knowledge Distillation 知識蒸餾
- Parameter Quantization 參數量化
- Architecture Design 結構設計
網絡結構改進
Transformer-XL (XLNet使用):跨塊級結構的attention,不僅局限於max-len(512)的長度
Reformer、Longformer、Big Bird:減少self-attention的復雜度
訓練方法
Predict Next Token (self-supervised):
language models:
LSTM:
- ELMo (雙向LSTM)
不是真正的雙向,預測一個token時,不是真正地看到兩邊的內容,而是兩個單向LSTM能力的拼接。
- Universal Language Model Fine-tuning (ULMFiT)
Self-attention:
這里可以attention的位置要有約束(目標是預測下一個token,不能看到未來的token答案)
綠色部分是可以attention的部分。
- GPT系列
- Megatron
- BERT (mask機制,用transformer作為encoder,預測某一個masked token時,可以看到上下文信息,類似CBOW的思想)
Span Boundary Objective (SBO)
SpanBERT提出,用mask的一個完整span的左右邊界來預測span內指定的某一個masked token。
預測token是否被mask
ELECTRA: Efficiently Learning an Encoder thtat Classifies Token Replacements Accurately
預測是否被是被小BERT置換過的詞:
其中,小BERT模型隨機選一個token進行mask,small BERT為這個masked token還原成它認為對的詞。
NSP 預測是否是下一個句子
BERT:Next sentence prediction
RoBERTa 指出該預測方法沒有用。
SOP Sentence order prediction
ALBERT中使用。
structBERT (Alice) 有用到類似的 (將 NSP 與 SOP 結合)
Mask機制改進
whole word masking(WWM) 整個詞的mask
ERNIE: Phrase-level & Entity-level 短語&命名實體級別
SpanBert: 蓋住n個token
seq2seq model
破壞輸入進行預測:
MASS: MAsked Sequence to Sequence pre-training(下圖紅框)
BART: Bidirectional and Auto-Regressive Transformers(下圖藍框)
BART給出了更多破壞輸入進行預測的方式。
結論:Permutation 和 Rotation的效果不好;Text Infilling的效果好。
UniLM:模型可以是encoder decoder seq2seq的任意模型
同時進行多種訓練:
- Bidirectional LM
- Left-to-Right LM
- Seq-to-Seq LM
預訓練方法對比:
Transfer Text-to-Text Transformer (T5) ,其中的訓練集為C4。
加入知識:
清華的ERNIE。