論文地址: https://hal.inria.fr/hal-02131630/document
作者 : Ganesh Jawahar, Benoît Sagot, Djamé Seddah
機構 : Inria
研究的問題:
探究BERT的深層次表征學習的論文,也就是通過實驗研究BERT的可解釋性。主要是探究在BERT的每一層都編碼了什么信息。
研究方法:
模型:
研究的模型是基於Devlin等發布的用104種語言組成的語料庫上訓練的多語言BERT模型。它由12層編碼網絡組成,每層的隱藏狀態(hidden)尺寸為768,並且有12個注意力頭(110M參數)。在所有的實驗中,作者在每一層網絡都使用第一個輸入符號(‘[CLS]’)的輸出來計算BERT的表征,這個輸出通過自注意力機制匯聚了所有真實符號的信息表征。
實驗一:短語語法
對於LSTM,已經被Peters等在2018年證明可以捕捉短語級別的結構信息。他們對於Transformer模型也做了研究,但沒有得出結論。作者采用了跟Peters相同的研究方法,具體如下:
首先給定一個輸入符號序列s_i,…,s_j,然后在每一層,通過結合第一個和最后一個隱藏向量,來計算該層的跨度表示。結果如下:
圖中是利用t-SNE對跨度表征可視化的結果,可以看到BERT在低層網絡捕捉了短語級別的結構信息,然后隨着網絡層數的加大,短語級別的結構信息逐漸消失。
進一步通過聚類算法k-means量化這個證明。在表中,作者使用歸一化互信息(Normalized Mutual Information,NMI)展示了低層網絡在編碼短語級別的結構信息上優於高層網絡。
實驗二:探測任務(Probing Task)
探測任務能夠幫助挖掘編碼在神經網絡模型中的語言學信息。作者使用探測任務來評估每層神經網絡編碼不同類型語言學特征的能力。
實驗原理是通過設置一個輔助的分類任務來實現,也就是用一個分類器從BERT中獲得輸入,如果分類器的結果正確,說明BERT提取到了有用的信息。具體是通過SentEval工具包實現的。
作者使用十個句子級別的探測任務,這些探測任務被分為三組:
1)表層任務:句子長度(SentLen)探測,單詞在句子中存在探測(WC);
2)句法層任務:詞序敏感性(BShift),句法樹深度(TreeDepth),句法樹頂級成分序列(TopConst);
3)語義層任務:時態檢查(Tense),主語數量(SubjNum),名詞動詞隨機替換敏感度(SOMO),協作分句連詞的隨機交換(CoordInv)。
實驗結果如下:
結論:BERT編碼了豐富的語言學層次信息。表層信息特征在底層網絡,句法信息特征在中間層網絡,語義信息特征在高層網絡。
實驗三:主謂一致
主謂一致是一個探究神經網絡模型是否正確編碼句法結構的任務。當句子中有更多相反編號(attractors)的名詞插入到主語和動詞中時,預測動詞編號的任務會逐漸變得困難。在之前,Glodberg已經探究了這個方面。作者做了進一步的研究,在每一層網絡使用不同的激勵(Stimuli)來測試BERT是否學習到較好的句法結構信息。結果如下:
上表是主謂一致得分表,第二列到第六列是在主語和動詞插入的名詞數量,括號里面的數字是主語到謂語動詞的平均距離。結果表明在大多數情況下,中間層網絡表現得更好,這也印證了上一部分句法特征主要在BERT中間層進行編碼的假設。另外,隨着插入名詞的增多,BERT更高層的網絡也逐漸能夠處理長程依賴問題,效果要比低層網絡更好,這證明BERT只有有更深的層數才能在大多數自然語言處理(NLP)上更有競爭力。
實驗四:組成結構
使用Tensor Product Decomposition Networks(TPDN)來探究。TPDN通過基於使用向量乘積和的預先選擇的方案(role scheme)來組合輸入符號表示。一個單詞的方案可以是基於從語法樹根節點到它自身的路徑,比如LR代表根節點的左孩子的右孩子。作者假設,對於一個給定的角色設計,如果一個TPDN模型能夠很好地被訓練去估計一個神經網絡學到的表征,那么這個角色設計就很可能能夠確定這個神經網絡模型學到的組合性特征。
對於BERT的每層網絡,作者使用五種不同的角色方案:left-to-right,right-to-left,bag-of-words,bidirectional以及tree。
仿照McCoy等的實驗,在SNLI語料庫的premise句子上來訓練TPDN模型,並使用MSE作為損失函數。結果如下:
可以看出BERT的高層網絡學習到了某種樹形結構。
進一步地,作者從自注意力機制權重中推導出了依賴樹。具體是使用了Chu-Liu-Edmond算法。結果如下:
根節點是are,可以看出像are keys的主謂語之間是存在依賴關系的。
作者最終的結論如下:
We have shown that phrasal representations learned by BERT reflect phrase-level information and that BERT composes a hierarchy of linguistic signals ranging from surface to semantic features. We have also shown that BERT requires deeper layers to model long-range dependency information. Finally, we have shown that BERT’s internal representations reflect a compositional modelling that shares parallels with traditional syntactic analysis.
評價:
關注BERT的可解釋性已經有不少論文了,彼此之間的側重點不一樣。總體來說,這些工作都證明了BERT是一個很優秀的模型。BERT當前在工業界也已經得到了很廣泛的應用。不過本文相較於之前的工作,只是起到了補充證明的作用,沒有得出了一些新的結論。