[NLP] 相對位置編碼(二) Relative Positional Encodings - Transformer-XL
1. Motivation 在Transformer-XL中,由於設計了segments,如果仍采用transformer模型中的絕對位置編碼的話,將不能區分處不同segments內同樣相對位置的詞的先后順序。 比如對於$segment_i$的第k個token,和$segment_j$的第k ...
1. Motivation 在Transformer-XL中,由於設計了segments,如果仍采用transformer模型中的絕對位置編碼的話,將不能區分處不同segments內同樣相對位置的詞的先后順序。 比如對於$segment_i$的第k個token,和$segment_j$的第k ...