論文閱讀 | Lite Transformer with Long-Short Range Attention

本文轉載自查看原文 2020-05-28 12:51 1200 NLP/ Papers

論文：Lite Transformer with Long-Short Range Attention by Wu, Liu et al.

LSRA特點：兩組head，其中一組頭部專注於局部上下文建模(通過卷積)，而另一組頭部專注於長距離關系建模(通過注意)。

傳統的self-attention被認為是有冗余的，經驗表明，句子中的本地關系被過於關注了。這可以通過標准卷積更加有效的進行建模。同樣的結論在On the Relationship between Self-Attention and Convolutional Layers也有，同時，這個精簡可以在某些情況下幫助提升模型的能力，但它不適用於較輕量級的應用。

Long-Short Range Attention (LSRA)通過將輸入沿通道維度分成兩部分，並將這兩個部分分別提供給兩個模塊，從而提高了計算效率：全局提取器使用標准的自注意力，局部提取器使用輕量級的深度卷積。作者給出了一個2.5×簡化的模型的總體計算量，使它適合移動端的配置。在機器翻譯、抽象摘要和語言建模任務上有提高。

配合剪枝和量化，模型大小壓縮到達了18.2x。