AR語言模型(AutoRegressive LM):只能獲取單向信息,即只能前向讀取信息並預測t位置的單詞或者從后向讀取信息並預測t位置的單詞,卻不能同時獲取雙向信息,代表例子是GPT,GPT2,XLNet,ELMO
AR LM的優點:比較擅長生成類任務
缺點:只能獲取單向信息,不能獲取雙向信息。
AE語言模型(AutoEncoder LM):獲取雙向信息進行預測,如想要預測位置t的單詞,既可以前向獲取信息也可以后向獲取信息,代表例子是Bert
AE LM的優點:可以獲取雙向信息,能同時看到預測位置的上文和下文
缺點:如bert,它在預訓練過程中會增加輸入噪聲,如對輸入序列會隨機mask掉一部分的單詞,而在微調時卻不會增加輸入噪聲,這種預訓練-微調步驟中產生的差異,會產生一部分的人為誤差