- 論文信息:Santoro A, Bartunov S, Botvinick M, et al. One-shot learning with memory-augmented neural networks[J]. arXiv preprint arXiv:1605.06065, 2016.
- 博文作者:Veagau
- 編輯時間:2020年01月07日
本文是2016年ICML的會議論文,作者來自谷歌的DeepMind。在論文中作者提出了一種記憶增強神經網絡(memory-augmented neural networks,簡記MANN)來快速吸收樣本中蘊含的信息並利用這些信息對僅提供數個樣本的情境做出准確的預測,即少樣本學習(Few-Shot Learning)。由於使用了外部記憶部件,因此作者還提出一種有效獲取外部記憶部件中內容的方法。
元學習過程主要划分為兩個階段:第一個階段,元學習模型在不同的任務上,如在一個具體的數據集內實現准確的分類,進行快速學習;第二階段,元學習模型提取跨任務的知識,並利用這些知識對第一階段進行指導。上一篇論文中提及的網絡模型就已經證實了帶有記憶功能的神經網絡適用於這種元學習場景,不過上文用到的LSTM神經網絡只能暫時的存儲學習到的知識表示,是一種內部記憶(Internal Memory)網絡架構,而本文中借鑒神經圖靈機(Neural Turing Machine)的思想,采用外部記憶(External Memory)網絡架構對跨任務知識進行存取。
整個網絡結構示意圖如下。
數據對(data pair)依然采用錯位的方式輸入到網絡中,在前向傳播的過程中,輸入樣本與目標標簽的會進行綁定,經過編碼后存儲在外部記憶元件中,在下一個樣本輸入后,網絡對記憶元件中內容進行檢索,解析出相關的信息進行預測。這些信息在記憶元件中是以矩陣的形式進行存儲的,每個樣本對應的編碼信息對應矩陣的一行數據,對矩陣存取即對其進行讀寫操作。讀(read)時采用神經圖靈機使用的策略——計算新的輸入樣本的編碼表示,然后用於與矩陣中每一行數據進行相似度計算,最后加權得出最終的預測信息。寫(Write)時采用LRUA(Least Recently Used Access)——最近最少使用策略,對最近最少使用的存儲單元進行覆蓋操作,從而節省存儲空間與查詢開支。
采用記憶增強網絡架構能夠很好的解決訓練數據稀疏(少樣本)的問題,不過本文中提出的記憶單元尋址策略靈活性尚有不足,能否讓網絡自主設計尋址策略,並且讓其適應更大范圍任務的學習以及與主動學習相結合還值得進一步研究。