- 論文信息:Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.
- 博文作者:Veagau
- 編輯時間:2020年01月07日
本文是2016年NIPS的會議論文,作者來自谷歌的DeepMind。在論文中作者提出一種結合了度量學習(Metric Learning)與記憶增強神經網絡(Memory Augment Neural Networks)的新型神經網絡結構——Matching Networks(匹配網絡)。這種網絡利用注意力機制與記憶機制加速學習,實現了在只提供少量樣本的條件下無標簽樣本的標簽預測。
Matching Networks的網絡結構示意圖如下:
對於給定的支持集 \(S\) ,預測新樣本數據 \(\hat{x}\) 的標簽 \(\hat{y}\) 的概率公式可以表示為:
其中\(k\) 表示支持集中樣本類別數,\(a\left(\hat{x},x_i\right)\) 為注意力計算公式,其計算基於新樣本數據與支持集中的樣本數據的嵌入表示的余弦相似度以及softmax函數,表達式如下:
其中 \(c\) 表示余弦相似度計算,\(f\) 與 \(g\) 表示施加在新樣本與支持集樣本上的嵌入函數(Embedding Function)。
為了增強樣本嵌入的匹配度,作者在文中還提出了Full Context Embeeding(全文嵌入,簡記FCE)方法——支持集中每個樣本的嵌入應該是相互獨立的,而新樣本的嵌入應該受支持集樣本數據分布的調控,其嵌入過程需要放在整個支持集環境下進行,因此作者采用帶有讀注意力的LSTM網絡對新樣本進行嵌入,最后的實驗結果表明,引入了FCE的Matching Network的性能得到了明顯的提升。
除了提出新的網絡結構外,作者還對ImageNet數據集進行了進一步的加工,提出了適用於Few-shot Learning情景的mini-ImageNet數據集——從ImageNet數據集中抽取100個類別的數據,每個類別有600個樣本,成為了繼Omniglot數據集之后的第二個FSL標准數據集。
本文在實驗設計時遵循的Train-Test Condition Match(訓練-測試條件一致)原則——訓練時的任務設置應該與實際測試時的任務設置保持一致,是進行少樣本學習實驗的一個重要指導方針,能夠減少模型的泛化誤差,提升模型的魯棒性。