- 論文信息:Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning[C]//Advances in Neural Information Processing Systems. 2017: 4077-4087.
- 博文作者:Veagau
- 編輯時間:2020年01月07日
本文是2017年NIPS的會議論文,作者來自多倫多大學以及Twitter公司。在論文中作者提出了一種新的基於度量(Metric-based)的少樣本學習模型——原型網絡(Prototypical Networks)。原型網絡首先利用支持集中每個類別提供的少量樣本,計算它們的嵌入的中心,作為每一類樣本的原型(Prototype),接着基於這些原型學習一個度量空間,使得新的樣本通過計算自身嵌入與這些原型的距離實現最終的分類,思想與聚類算法十分接近,但出發點有着很大的差異。除此之外,作者在文章中還嘗試將原型網絡應用於零樣本學習(Zero-shot learning)問題上,通過數據集攜帶的屬性向量形成元數據(meta-data),基於這些元數據構建原型,從而實現零樣本分類。
原型網絡在少樣本分類與零樣本分類任務上的示意圖如下所示。
樣本數據的嵌入操作采用基本深層卷積神經網絡實現,用\(f_{\phi}\)表示嵌入操作,其中\(\phi\)為可學習參數。原型的計算公式如下。
其中\(S_k\) 表示第 \(k\) 類樣本。
給定查詢點(Query point)\(x\) ,它所歸屬的原型的概率分布由基於其與各個原型的距離值得softmax函數計算得出。
其中 \(d\) 表示距離計算函數,要求必須是正規布雷格曼散度,如平方歐式距離與馬氏距離。
原型網絡相比其他的元學習算法模型而言,要更加簡單有效,並且通過選擇適當的距離度量以及調整學習流程,整個網絡的表現還能夠得到進一步的提升,這種解決思路也為后續的少樣本學習方法的改進提供了更加簡單易用的基礎模型。