注意力模型(Attention Model,AM)已經成為神經網絡中的一個重要概念,並在不同的應用領域進行了充分的研究。這項調查提供了一個結構化和全面的概述關於attention的發展。我們回顧了注意力機制被納入的不同的神經網絡結構,並展示了注意力如何提高神經網絡的可解釋性。最后,我們討論了在實際應用中,注意力機制取得的重要影響。我們希望這項調查能夠為注意力模型提供一個簡明的介紹,並在開發應用方法的同時指導實踐者。
1. Introduction
注意力模型(AM)最初被用於機器翻譯[Bahdanau et al., 2014],現在已成為神經網絡領域的一個重要概念。在人工智能(Artificial Intelligence,AI)領域,注意力已成為神經網絡結構的重要組成部分,並在自然語言處理、統計學習、語音和計算機等領域有着大量的應用。

注意力機制可以利用人類視覺機制進行直觀解釋。例如,我們的視覺系統傾向於關注圖像中輔助判斷的部分信息,並忽略掉不相關的信息[Xu et al., 2015]。同樣,在涉及語言或視覺的問題中,輸入的某些部分可能會比其他部分對決策更有幫助。例如,在翻譯和總結任務中,輸入序列中只有某些單詞可能與預測下一個單詞相關。同樣,在image-caption問題中,輸入圖像中只有某些區域可能與生成caption的下一個單詞更相關。注意力模型通過允許模型動態地關注有助於執行手頭任務的輸入的某些部分,將這種相關性概念結合起來。使用注意力模型對Yelp評論進行情緒分類的示例如圖1所示[Yang et al., 2016]。在這個例子中,AM了解到在五個句子中,第一句和第三句更相關。此外,這些句子中的“美味 delicious ”和“神奇 amazing”這兩個詞更有意義地決定了評論的情感。
神經網絡中建模注意力的快速發展主要有三個原因。首先,這些模型現在是解決多任務最先進的模型[Young et al., 2018],如機器翻譯、問題回答、情緒分析、詞性標記、對話系統。其次,除了在主要任務上提高性能外,它們還提供了其他幾個優勢。它們被廣泛用於提高神經網絡的可解釋性,而神經網絡之前常常被視為黑盒模型。這是一個顯著的好處,主要是因為人們對影響人類生活的應用程序中的機器學習模型公平性、問責制和透明度越來越感興趣。第三,它們有助於克服遞歸神經網絡RNN中的一些挑戰,例如隨着輸入長度的增加性能下降,以及輸入順序不合理導致的計算效率低下。因此,在這項工作中,我們的目標是提供一個簡短的,全面的注意機制綜述。
- 論文組織結構
我們在第2節中簡要解釋了Bahdanau等人提出的注意模型[Bahdanau et al.,2014],並在第3節中描述了我們的分類法。然后,我們分別在第4節和第5節中討論了使用注意模型的神經網絡結構以及attention如何促進神經網絡的可解釋性。最后,我們在第6節中提出了注意力模型的廣泛,並在第7節中總結了本文。
- 相關的綜述文獻
關於attention model在計算機視覺[Wang and Tax, 2016]和圖形[Lee et al., 2018]的應用已經有一些綜述。另一個類似的工作是由Galassi等人完成的[Galassi et al.,2019],但是我們進一步綜述了可行的分類法、關鍵網絡架構、應用程序、以及注意力模型的可解釋性。我們希望我們的貢獻不僅能夠促進對注意力模型的更廣泛理解,而且能夠幫助人工智能開發人員和工程師為他們的應用領域確定正確的方法。
2. Attention Model

sequence-to-sequence模型由編碼器-解碼器體系結構[Cho et al., 2014b]組成,如圖2(a)所示。編碼器是一個RNN,它接受tokens的輸入序列(x1,x2,…,xt),其中t是輸入序列的長度,並將其編碼為固定長度的向量(h1,h2,…,ht)。解碼器也是一個RNN,它以一個固定長度的向量ht作為輸入,通過tokens-to-tokens生成一個輸出序列(y1,y2,…,ytt),其中tt是輸出序列的長度。在每個位置t,ht和st分別表示編碼器和解碼器的隱狀態。
- 傳統編碼器-解碼器的挑戰
傳統的編碼器-解碼器框架有兩個眾所周知的挑戰。首先,編碼器必須將所有輸入信息壓縮成一個固定長度的向量ht,然后將其傳遞給解碼器。使用一個固定長度的向量壓縮長而詳細的輸入序列可能會導致信息丟失 [Cho et al., 2014a]。其次,它無法對輸入和輸出序列之間的對齊進行建模,這是結構化輸出任務(如翻譯或匯總)的一個重要方面[Young et al., 2018]。從直覺上看,在sequence-to-sequence的任務中,我們期望輸出的token受到輸入序列的某個部分影響很大。然而,解碼器缺乏任何機制在生成每個輸出tokens時選擇性地關注相關的輸入tokens。
- 關鍵理念
注意模型旨在通過允許解碼器訪問整個編碼的輸入序列(h1,h2,…,ht)來減輕這些挑戰。其核心思想是在輸入序列上引入注意權重α,以優先考慮存在相關信息的位置集,以生成下一個輸出token。
- Attention的使用
具有注意模型的相應編碼器-解碼器體系結構如圖2(b)所示。網絡結構中的注意力模塊負責自動學習注意力權重αij,它可以自動捕獲hi(編碼器隱藏狀態,我們稱之為候選狀態)和sj(解碼器隱藏狀態,我們稱之為查詢狀態)之間的相關性。然后,這些注意力權重用於構建內容向量C,該向量作為輸入傳遞給解碼器。在每個解碼位置j,內容向量cj是編碼器所有隱藏狀態及其相應注意權的加權和。
- 學習注意力權重
注意力權重是通過在體系結構中加入一個額外的前饋神經網絡來學習的。該前饋網絡學習一個特殊的注意權αij,作為兩種狀態h(i)和s(j-1)的函數。簡單地說,就是用這兩種狀態作為神經網絡的輸入,進而學習αij關於他們的函數。、
3. Taxonomy of Attention

我們將注意力分為四大類,並說明每一類中不同類型的注意力,如表1所示。我們要強調的是,這些類別並不相互排斥。注意力模型可以應用於多個類別的組合,如多層次的、self和soft注意力組合[Yang et al., 2016]。因此,我們可以將這些類別視為維度,在將注意力用於感興趣的應用時,可以考慮這些維度。為了使這一概念易於理解,我們提供了一份關鍵技術論文列表,並在表2中指定了作者在提出的方法中使用的多種注意類型。

- Number of sequences
到目前為止,我們只考慮了涉及單個輸入和相應輸出序列的情況。當候選狀態(candidate state)和查詢狀態(query state)分別屬於兩個不同的輸入和輸出序列時,使用這種注意模型的我們稱之為區別性distinctive。大多數用於翻譯[Bahdanau et al., 2014]、總結[Rush et al., 2015]、圖像字幕[Xu et al., 2015]和語音識別[Chan et al., 2016]的注意力模型都屬於區別性distinctive的注意力類型。
共同注意模型co-attention同時對多個輸入序列進行操作,並共同學習它們的注意力權重,以捕獲這些輸入之間的交互作用。劉等人 [Lu et al.,2016] 使用共同注意力模型構建了視覺問答系統。作者認為,除了對輸入圖像進行視覺注意建模外,對問題注意建模也很重要,因為問題文本中的所有單詞對問題的答案並不同等重要。此外,基於注意力的圖像表示用於引導問題的注意力,反之亦然,這基本上有助於同時檢測問題中的關鍵短語和與答案相關的圖像的相應區域。
相反,對於文本分類和推薦等任務,輸入是序列,但輸出不是序列。在相同的輸入序列中,注意力模型可以用於學習輸入序列中每個tokens的相關tokens。換句話說,對於這類關注模型,查詢和候選狀態屬於相同的序列。為此,Yang等人[Yang et al. ,2016]提出了自我關注,也就是內在注意力模型。
- Number of abstraction levels
在最一般的情況下,只為原始輸入序列計算注意力權重。這種注意力模型可以稱為單一水平single-level。另一方面,注意力可以按順序應用於輸入序列的多個抽象層次。較低抽象級別的輸出(內容向量)成為較高抽象級別的查詢狀態。此外,使用多層次注意力模型可以根據權重是自上而下(從較高抽象級別到較低級別)[Zhao and Zhang, 2018]還是自下而上學習[Yang
et al., 2016]來進一步分類。
我們舉例說明了這一類別中的一個關鍵示例,它在兩個不同的抽象級別(即單詞級別和句子級別)使用注意力模型來完成文檔分類任務[Yang et al., 2016]。該模型被稱為“層次注意力模型”(HAM),因為它捕獲了文檔的自然層次結構,即文檔由句子組成,句子由單詞組成。多層次的注意力模型允許提取句子中重要的單詞和文檔中重要的句子,如下所示。它首先建立了一種基於attention的句子表示法,並將第一級attention應用於單詞嵌入向量序列。然后,它使用第二級注意來聚合這些句子表示,以形成文檔的表示。文檔的最終表示形式用作分類任務的特征向量。

請注意,第3.1節所述的co-attention工作[Lu et al., 2016]也屬於多層次的范疇,它在三個層次上共同關注圖像和問題:單詞級別、短語級別和問題級別。這種co-attention和multi-level attention的組合如圖3所示。
[Zhao and Zhang et al., 2018]提議使用“attention-via-attention”模型處理問答系統的相關任務,即使用多層次的注意力模型(較低層次的字母和較高層次的單詞),但以自上而下的方式學習注意力權重。
- Number of position
在第三類中,差異來自於計算注意力函數的輸入序列的位置。Bahdanau等人引入的注意力模型也被稱為軟注意力soft attention [Bahdanau et al., 2014]。顧名思義,它使用輸入序列所有隱藏狀態的加權平均值來構建內容向量。軟加權方法的應用使得神經網絡易於通過反向傳播進行有效的學習,同時也導致了二次計算代價。
Xu等人提出了一個硬注意模型 hard attention [Xu et al., 2015],其中內容向量是根據輸入序列中隨機抽樣的隱藏狀態計算出來的。這是通過使用由注意權重參數化的多努利分布來實現的。由於計算成本的降低,硬注意模型是有益的,但是在輸入的每一個位置做出一個艱難的決策,使得所得到的框架不可微分,難以優化。因此,為了克服這一局限性,文獻中提出了變分學習法和策略梯度法在強化學習中的應用。
在機器翻譯任務的背景下,Luong等人提出了兩種關注模型,即局部Local關注模型和全局Global關注模型[Luong et al. , 2015]。全局注意力模型與軟注意力模型相似。另一方面,局部注意模型介於軟注意和硬注意之間。關鍵思想是首先檢測輸入序列中的注意點或位置,然后在該位置周圍選擇一個窗口,以創建局部軟注意模型。輸入序列中的位置可以設置(單調對齊)或通過預測函數(預測對齊)學習。因此,局部關注的優勢在於在軟關注、硬關注、計算效率、窗口內可微性之間的參數權衡。
- Number of representations
一般來說,輸入序列的單一特征表示被大多數網絡模型使用。但是,在某些情況下,使用輸入的一個特征表示可能不足以完成下游任務。在這種情況下,一種方法是通過多個特征表示來捕獲輸入的不同方面。注意力機制可以用來為這些不同的表示分配重要權重,這些表示可以確定最相關的方面,而忽略輸入中的噪聲和冗余。我們將此模型稱為多表示注意模型,因為它可以確定下游應用程序輸入的多個表示的相關性。最終的表達是這些多重特征及其注意模型的權重加權組合。注意力模型的一個好處是通過檢查權重,直接評估哪些嵌入是特定下游任務的首選嵌入。
Kiela等人在同一輸入句的不同單詞嵌入上學習注意力模型權重,以改進句子表示[Kiela et al. , 2018]。同樣地,Maharjan等人也利用注意力來動態地給詞匯、句法、視覺和體裁信息的書籍的不同特征表示賦予權重[Maharjan et al., 2018]。
類似地,在多維注意multi-dimensional中,引入權重來確定輸入嵌入向量的各個維度的相關性。直覺地將,計算向量的每個特征的分數可以選擇在任何給定內容中最能描述詞牌token特定含義的特征。這對於自然語言應用程序尤其有用,因為在自然語言中,單詞嵌入會遇到一詞多義問題。這一方法在Lin等人中展示了更有效的句子嵌入表示[Lin et al. , 2017],在Shen等人中展示了語言理解問題上[Shen et al. 2018]進行了充分的討論。
4. Network Architectures with Attention
在本節中,我們描述了與注意力結合使用的三種的神經網絡架構:(1)編碼器-解碼器框架,(2)將注意力擴展到單個輸入序列之外的存儲網絡,以及(3)利用注意力繞過RNN模型的順序處理
- Encoder-Decoder
最早使用注意力是作為基於RNN的編碼器-解碼器框架的一部分來編碼長的輸入語句[Bahdanau et al., 2014]。因此,注意力在這種體系結構中得到了最廣泛的應用。一個有趣的事實是,注意力模型可以采用任何長度的輸入表示,並將其減少到一個固定長度的內容向量,用於解碼步驟。因此,它允許將輸入表示與輸出分離。我們可以利用這一優勢來引入混合編碼器解碼器,最流行的是卷積神經網絡(CNN)作為編碼器,RNN或長短期存儲器(LSTM)作為解碼器。這種類型的體系結構對於多模式任務特別有用,例如圖像和視頻標注、可視問答和語音識別。
- Memory Networks
像問答和聊天機器人這樣的應用程序需要能夠從事實數據庫中的信息中學習。網絡的輸入是一個知識數據庫和一個查詢,其中一些事實比其他事實更與查詢相關。端到端內存網絡[Sukhbaatar et al., 2015]通過使用一組內存塊存儲事實數據庫來實現這一點,並注意內存中每個事實的模型相關性以回答查詢。使用注意力還提供了計算優勢,使目標連續,並通過反向傳播實現端到端訓練。端到端存儲器網絡可以被看作注意力模型的一種推廣,它不是只在一個序列上建模,而是在一個大型的序列數據庫上建模。
- Networks without RNNs
RNN結構依賴於編碼步驟輸入的順序處理,因為處理無法並行化,這導致計算效率低下[Vaswani et al., 2017]。為了解決這一問題,作者提出了一種Transformer結構,其中編碼器和解碼器由,帶有兩個子層的相同層組成:位置前饋網絡(FFN)層和multi-head自注意層。
Position-wise FFN: 輸入是序列的,它要求模型利用輸入的時間信息,但是不使用捕獲該位置信息的組件(如,RNN/CNN)。為此,在Transformer的編碼階段使用Position-wise FFN為輸入序列的每個標記token生成內容嵌入和位置編碼。
Multi-Head Self-Attention: 在每個子層中使用self-attention來關聯token及其在相同輸入序列中的位置。此外,注意力機制被稱為multi-head,因為幾個注意力層是平行堆疊的,對相同輸入序列進行不同的線性變換。這有助於模型捕獲輸入的各個方面並提高其表達能力。
Transformer結構實現了顯著的並行處理、更短的訓練時間和更高的翻譯精度,無需任何循環的組件,這是一個顯著的好處。然而,位置編碼僅弱合並位置信息,可能不適用於對位置變化更敏感的問題。Shen等人利用時間卷積編碼位置信息以及Transformer的自我注意機制 [Shen et al., 2018]。
此外,還有更直接的方法來中斷輸入的順序處理。Raffel和Ellis提出了前饋注意模型[Raffel and Ellis, 2015],他們使用注意模型來折疊數據的時間維度,並使用FFN而不是RNN來解決順序數據問題。在這種情況下,注意力模型被用來從可變長度的輸入序列中產生一個固定長度的內容向量,它可以作為一個輸入,進而輸入到FFN。
5. Attention for Interpretability

人們對人工智能模型的可解釋性產生了極大的興趣,模型的性能以及透明性和公平性都體現了這一點。然而,神經網絡,特別是深度學習,因其缺乏可解釋性而受到批評[Guidotti et al., 2018]。
從可解釋性的角度來看,注意力機制特別有趣,因為它允許我們直接檢查深度學習體系結構的內部工作。假設是注意力權重的大小與一個特定輸入區域的相關性密切相關,用於預測一個序列中每個位置的輸出。這可以很容易地通過可視化一組輸入和輸出對的注意權重來實現。Li等認為注意力是解釋神經模型內部工作的重要途徑之一[Li et al. 2016]。
如圖4(a)所示,Bahdanau等人將注意力權重形象化,盡管主語-動詞-名詞位置在語言之間有所不同,但它清楚地顯示了法語和英語中句子的自動對齊[Bahdanau et al., 2014]。特別是注意模型通過將"environnement marin"與"marine environment
"非單調對齊。圖4(b)顯示了注意力權重可以幫助識別用戶的興趣。用戶1似乎更喜歡“卡通”視頻,而用戶2更喜歡“動物”視頻[He et al., 2018]。最后,Xu等人對圖像字幕任務中,生成的文本與相關圖像區域關聯(即具有高關注權重)進行可視化[Xu et al. , 2015],如圖4(c)所示。
我們還總結了一些其他有趣的發現,如下所示。De Arteaga等人探討了職業分類中的性別偏見,並展示了在分類任務中獲得更多關注的詞匯通常是如何被性別化的[De-Arteaga et al. 2019]。Yang等人注意到,評論內容的好與壞的重要性取決於上下文,從而確定評論的情緒[Yang et al. 2016]。作者考察了這些詞的注意權重分布,發現它們的范圍從0到1,這意味着模型捕獲了不同的上下文,並為這些詞分配了上下文相關的權重。Chan等人注意到,在語音識別中,字符輸出和音頻信號之間的注意能夠正確識別音頻信號中第一個字符的起始位置,對於聲音相似的單詞,注意權重相似[Chan et al. 2016]。
作為注意力的另一個有趣的應用,Lee等人[Lee et al.2017]和Liu等人[Liu et al. 2018]提供了一個工具來可視化深層神經網絡的注意力權重。目的是解釋和干擾注意力權重,以便模擬假設情景並交互觀察預測的變化。
6. Applications
注意力模型由於其直觀性、通用性和可解釋性,已成為研究的一個活躍領域。注意力模型的變體已經被用來處理不同應用領域的獨特特征,如總結、閱讀理解、語言建模、解析等。我們討論了三個應用領域的注意力建模:(i)自然語言生成NLG(i i)分類(i i i)推薦系統。
NLG任務包括生成自然語言文本作為輸出。一些NLG應用程序從加入注意力模型中獲益,包括機器翻譯(MT)、問答系統(QAS)和多媒體描述(MD)。機器翻譯MT使用算法將文本或語音從一種語言翻譯成另一種語言。神經技術中的注意建模使得不同語言的句子能夠更好地對齊,這是機器翻譯中的一個關鍵問題。注意模型的優點在翻譯較長的句子時也變得更加明顯[Bahdanau et al., 2014]。包括Britz等人和Tang等人在內的幾項研究表明,使用注意力可以改善MT的性能[Britz et al., 2017] [Tang et al., 2018]。QAS問題利用了注意力:(i)通過關注問題的相關部分來更好地理解問題[Hermann et al., 2015];(i i)使用存儲網絡來存儲大量信息,以幫助找到答案[Sukhbaatar et al., 2015];(i i i)通過使用共同關注來模擬輸入中的多種形式來提高性能、無形的QAS任務[Lu et al., 2016]。MD的任務是生成一個自然語言文本描述的多媒體輸入序列,可以是語音,圖像和視頻[Cho et al., 2015]。與QAS類似,這里的注意力執行在語音輸入[Chorowski et al., 2015]或輸入圖像的相關部分[Xu et al., 2015]
中查找相關聲音信號的功能,以預測標題中的下一個單詞。此外,Li等人利用視頻的時間和空間結構,利用多級關注進行視頻字幕任務[Li et al. 2017]。較低的抽象級別提取幀內的特定區域,較高的抽象級別選擇性地關注幀的小子集。
文件分類:如前面第3節所述,分類問題主要利用自我關注來構建更有效的文件表示。Yang等人使用了多層次的自我關注[Yang et al. 2016],而Lin等人則提出了多維的自我關注[Lin et al.2017],Kiela等人則提出了一個多特征表達的自我關注模型[Kiela et al. 2018]。
情緒分析:同樣,在情緒分析任務中,自我關注有助於將注意力集中在決定輸入情緒的重要詞語上。Wang等人和Ma等人提出的基於方面的情感分類方法將與方面相關的概念的額外知識納入模型 [Wang et al.2016] and [Ma et al. 2018],並利用關注度來適當權衡概念與內容本身的區別。情感分析應用程序也注意到了多種架構的使用,如記憶網絡[Tang et al., 2016]和Transformer [Ambartsoumian and Popowich, 2018] and [Song et al., 2019]。
推薦系統:注意力模型也被廣泛應用於推薦系統中,用於用戶分析,即將注意力權重分配給用戶的交互項目,以更有效地捕捉長期和短期的興趣。這是直觀的,因為用戶的所有交互都與物品的建議無關,用戶的興趣在長時間和短時間內都是短暫的,並且是變化的。多篇論文使用自我關注機制來查找用戶歷史中最相關的物品,以改進物品推薦建議,要么使用協作過濾框架[He et al., 2018;] and [ Shuai Yu, 2019],要么使用編碼器-解碼器體系結構來進行推薦[Kang and McAuley, 2018;] and [Zhou et al., 2018]。
近年來,生物的注意力機制以新穎的方式被利用,為研究開辟了新的途徑,包括更平滑地整合外部知識庫、訓練前嵌入、多任務學習、無監督的特征集成學習、稀疏性學習、原型學習(即樣本選擇)。
7. Conclusion
在本次綜述中,我們討論了文獻中注意力模型的不同使用方式,並試圖通過討論注意力分類法、使用注意力的關鍵神經網絡結構以及受到顯著影響的應用領域來概述各種技術。我們討論了注意力在神經網絡中的結合如何顯著提高性能,通過促進可解釋性,提供了對神經網絡內部工作的更深入了解,並通過消除輸入的順序處理提高了計算效率。我們希望本次調查能夠更好地了解對這一主題進行研究的不同方向,以及在一個領域中開發的技術如何應用到其他領域。
Reference:
Artaches Ambartsoumian and Fred Popowich. Self-attention: A better building block for sentiment analysis neural network classifiers. arXiv preprint arXiv:1812.07860, 2018.
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate.
arXiv preprint arXiv:1409.0473, 2014.
Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc Le. Massive exploration of neural machine translation architectures. In
EMNLP, pages 1442–1451. ACL, September 2017.
William Chan, Navdeep Jaitly, Quoc Le, and Oriol Vinyals. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. In ICASSP, pages 4960–4964. IEEE, 2016.
Kyunghyun Cho, Bart van Merrienboer, Dzmitry Bahdanau, and Yoshua Bengio. On the properties of neural machine translation: Encoder–decoder approaches. In Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, pages 103–111, Doha, Qatar, October 2014. ACL.
Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder–decoder for statistical machine translation. In EMNLP, pages 1724–1734,
Doha, Qatar, October 2014. ACL. Kyunghyun Cho, Aaron Courville, and Yoshua Bengio. Describing multimedia content using attention-based encoder-decoder networks. IEEE Transactions on Multimedia, 17(11):1875–1886, 2015.
Jan Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, and Yoshua Bengio. Attention-based models for speech
recognition. In NIPS, pages 577–585, Cambridge, MA, USA,
2015. MIT Press.
Maria De-Arteaga, Alexey Romanov, Hanna Wallach, Jennifer
Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik,
Krishnaram Kenthapadi, and Adam Tauman Kalai. Bias in bios:
A case study of semantic representation bias in a high-stakes setting. arXiv preprint arXiv:1901.09451, 2019.
Andrea Galassi, Marco Lippi, and Paolo Torroni. Attention, please!
a critical review of neural attention models in natural language
processing. arXiv preprint arXiv:1902.02181, 2019.
Riccardo Guidotti, Anna Monreale, Salvatore Ruggieri, Franco
Turini, Fosca Giannotti, and Dino Pedreschi. A survey of methods for explaining black box models. ACM computing surveys
(CSUR), 51(5):93, 2018.
Xiangnan He, Zhankui He, Jingkuan Song, Zhenguang Liu, YuGang Jiang, and Tat-Seng Chua. Nais: Neural attentive item similarity model for recommendation. IEEE TKDE, 30(12):2354–2366, 2018.
Karl Moritz Hermann, Tomas Kocisky, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom.
Teaching machines to read and comprehend. In NIPS, pages 1693–1701, 2015.
Wang-Cheng Kang and Julian McAuley. Self-attentive sequential recommendation. In ICDM, pages 197–206. IEEE, 2018.
Douwe Kiela, Changhan Wang, and Kyunghyun Cho. Dynamic meta-embeddings for improved sentence representations. In
EMNLP, pages 1466–1477, 2018. Jaesong Lee, Joong-Hwi Shin, and Jun-Seok Kim. Interactive visualization and manipulation of attention-based neural machine translation. In EMNLP, pages 121–126. ACL, 2017.
John Boaz Lee, Ryan A Rossi, Sungchul Kim, Nesreen K Ahmed, and Eunyee Koh. Attention models in graphs: A survey. arXiv
preprint arXiv:1807.07984, 2018.
Jiwei Li, Will Monroe, and Dan Jurafsky. Understanding neural networks through representation erasure. arXiv preprint
arXiv:1612.08220, 2016.
Xuelong Li, Bin Zhao, Xiaoqiang Lu, et al. Mam-rnn: Multi-level attention model based rnn for video captioning. In IJCAI, pages
2208–2214, 2017.
Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured selfattentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.
Shusen Liu, Tao Li, Zhimin Li, Vivek Srikumar, Valerio Pascucci, and Peer-Timo Bremer. Visual interrogation of attentionbased models for natural language inference and machine comprehension. Technical report, Lawrence Livermore National
Lab.(LLNL), Livermore, CA (United States), 2018.
Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh. Hierarchical question-image co-attention for visual question answering. InNIPS, pages 289–297, 2016.
Thang Luong, Hieu Pham, and Christopher D. Manning. Effective approaches to attention-based neural machine translation. In
EMNLP, pages 1412–1421, Lisbon, Portugal, September 2015. ACL.
Yukun Ma, Haiyun Peng, and Erik Cambria. Targeted aspect-based sentiment analysis via embedding commonsense knowledge into an attentive lstm. In AAAI, 2018.
Suraj Maharjan, Manuel Montes, Fabio A Gonzalez, and Thamar Solorio. A genre-aware attention model to improve the likability prediction of books. In EMNLP, pages 3381–3391, 2018.
Colin Raffel and Daniel PW Ellis. Feed-forward networks with attention can solve some long-term memory problems. arXiv
preprint arXiv:1512.08756, 2015.
Alexander M. Rush, Sumit Chopra, and Jason Weston. A neural attention model for abstractive sentence summarization. In
EMNLP, pages 379–389, Lisbon, Portugal, September 2015. ACL.
Tao Shen, Tianyi Zhou, Guodong Long, Jing Jiang, Shirui Pan, and Chengqi Zhang. Disan: Directional self-attention network for
rnn/cnn-free language understanding. In AAAI, 2018.
Min Yang Baocheng Li Qiang Qu Jialie Shen Shuai Yu, Yongbo Wang. Nairs: A neural attentive interpretable recommendation system. The Web Conference(WWW), 2019.
Youwei Song, Jiahai Wang, Tao Jiang, Zhiyue Liu, and Yanghui Rao. Attentional encoder network for targeted sentiment classification. arXiv preprint arXiv:1902.09314, 2019.
Sainbayar Sukhbaatar, Jason Weston, Rob Fergus, et al. End-to-end memory networks. In NIPS, pages 2440–2448, 2015.
Duyu Tang, Bing Qin, and Ting Liu. Aspect level sentiment classification with deep memory network. In EMNLP, pages 214–224, Austin, Texas, November 2016. ACL.
Gongbo Tang, Mathias Muller, Annette Rios, and Rico Sennrich. ¨Why self-attention? a targeted evaluation of neural machine
translation architectures. arXiv preprint arXiv:1808.08946, 2018.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017.
Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. Pointer networks. In NIPS, pages 2692–2700, Cambridge, MA, USA, 2015.
MIT Press.
Feng Wang and David MJ Tax. Survey on the attention based rnn model and its applications in computer vision. arXiv preprint
arXiv:1601.06823, 2016.
Yequan Wang, Minlie Huang, xiaoyan zhu, and Li Zhao. Attentionbased lstm for aspect-level sentiment classification. In EMNLP, pages 606–615. ACL, 2016.
Wenya Wang, Sinno Jialin Pan, Daniel Dahlmeier, and Xiaokui Xiao. Coupled multi-layer attentions for co-extraction of aspect
and opinion terms. In AAAI, 2017.
Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, pages 2048–2057, 2015.
Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alexander J. Smola, and Eduard H. Hovy. Hierarchical attention networks for
document classification. In HLT-NAACL, 2016.
Haochao Ying, Fuzhen Zhuang, Fuzheng Zhang, Yanchi Liu, Guandong Xu, Xing Xie, Hui Xiong, and Jian Wu. Sequential recommender system based on hierarchical attention network. In IJCAI, pages 3926–3932. AAAI Press, 2018.
Tom Young, Devamanyu Hazarika, Soujanya Poria, and Erik Cambria. Recent trends in deep learning based natural language processing. IEEE Computational Intelligence magazine, 13(3):55–75, 2018.
Shenjian Zhao and Zhihua Zhang. Attention-via-attention neural machine translation. In AAAI, 2018.
Chang Zhou, Jinze Bai, Junshuai Song, Xiaofei Liu, Zhengchao Zhao, Xiusi Chen, and Jun Gao. Atrank: An attention-based user behavior modeling framework for recommendation. In AAAI, 2018.
文章來源:An Attentive Survey of Attention Models. https://arxiv.org/abs/1904.02874?context=cs