論文閱讀 | Lite Transformer with Long-Short Range Attention


論文:Lite Transformer with Long-Short Range Attention by Wu, Liu et al.

[ code in github ]

LSRA特點:兩組head,其中一組頭部專注於局部上下文建模(通過卷積),而另一組頭部專注於長距離關系建模(通過注意)。

傳統的self-attention被認為是有冗余的,經驗表明,句子中的本地關系被過於關注了。這可以通過標准卷積更加有效的進行建模。同樣的結論在On the Relationship between Self-Attention and Convolutional Layers也有,同時,這個精簡可以在某些情況下幫助提升模型的能力,但它不適用於較輕量級的應用。

Long-Short Range Attention (LSRA)通過將輸入沿通道維度分成兩部分,並將這兩個部分分別提供給兩個模塊,從而提高了計算效率:全局提取器使用標准的自注意力,局部提取器使用輕量級的深度卷積。作者給出了一個2.5×簡化的模型的總體計算量,使它適合移動端的配置。在機器翻譯、抽象摘要和語言建模任務上有提高。

配合剪枝和量化,模型大小壓縮到達了18.2x。

從圖上看對比還是非常明顯的。 

 

 

得到輸入的embedding后,分為兩個分支,一個是attention(在原始的transformer 上,通道維度減少了一半。另一個分支是卷積,通過滑動窗口,對角線組可以很容易地被模塊覆蓋。最后把兩個分支的結果stack后交給FFN。

 

 

 

 

實驗結果

 

 

 

 

 

 

 

 

論文用到的量化和剪枝方法分別參考:

1. 量化:

K-means (Han et al., 2016),

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding.

2. 剪枝:

sensitivity of each layer (Han et al., 2015a),Learning both weights and connections for efficient neural network.

這兩個方法的一作也是本文的作者之一。

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM