BERT:
老大哥模型,模型的兩個目標MLM和NSP,采用靜態Masking(模型預訓練之前已經確定了Masking的位置)
ALBERT:
bert模型的精簡版本,參數更少,訓練更快,主要有以下改動:
- 矩陣分解。詞向量V到encoder全連接M進行分解,bert中參數量:V*M,ALBERT:V*H+M*H=(V+M)*H,H可以比較小,因為詞的數目有限的,和下游的語義相比可以有更小的維度
- 貢獻權重。encoder權重貢獻(當然也可以只共享Multi-head attention或者feed forwa neural network)
- SOP代替NSP。NSP是第二個句子通過采樣獲得,預測其是不是后面一個句子;SOP,將前后兩個句子顛倒,預測句子的順序
span BERT:
參考https://zhuanlan.zhihu.com/p/75893972
fast BERT:
參考鏈接:https://mp.weixin.qq.com/s/TtpD3EEXWQUkvfB1AVl7ig
其他的以后再寫吧。。。。