Bert及變種簡述


BERT:

老大哥模型,模型的兩個目標MLM和NSP,采用靜態Masking(模型預訓練之前已經確定了Masking的位置)

ALBERT:

bert模型的精簡版本,參數更少,訓練更快,主要有以下改動:

 

  1. 矩陣分解。詞向量V到encoder全連接M進行分解,bert中參數量:V*M,ALBERT:V*H+M*H=(V+M)*H,H可以比較小,因為詞的數目有限的,和下游的語義相比可以有更小的維度
  2. 貢獻權重。encoder權重貢獻(當然也可以只共享Multi-head attention或者feed forwa neural network)
  3. SOP代替NSP。NSP是第二個句子通過采樣獲得,預測其是不是后面一個句子;SOP,將前后兩個句子顛倒,預測句子的順序

span BERT:

 

參考https://zhuanlan.zhihu.com/p/75893972

fast BERT:

 

參考鏈接:https://mp.weixin.qq.com/s/TtpD3EEXWQUkvfB1AVl7ig

 

其他的以后再寫吧。。。。 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM