小樣本學習綜述

本文轉載自查看原文 2020-05-05 06:07 1465

小樣本學習綜述

數據是機器學習領域的重要資源，在數據缺少的情況下如何訓練模型呢？小樣本學習是其中一個解決方案。來自香港科技大學和第四范式的研究人員綜述了該領域的研究發展，並提出了未來的研究方向。
這篇綜述論文已被 ACM Computing Surveys 接收，作者還建立了 GitHub repo，用於更新該領域的發展。

論文地址：https://arxiv.org/pdf/1904.05046.pdf
GitHub 地址：https://github.com/tata1661/FewShotPapers

本文的貢獻總結如下：

•給出了FSL的正式定義，它自然地與經典的機器學習定義聯系在一起[92,94]。這個定義不僅足夠籠統地包含現有的FSL工作，而且足夠具體地闡明FSL的目標是什么以及如何解決它。這一定義有助於確定未來FSL領域的研究目標。

•列舉了與FSL相關的學習問題，並舉例說明它們與FSL的關系和區別。這些討論有助於在各種學習問題中更好地辨別和定位FSL。

•指出FSL監督學習問題的核心問題是不可靠的經驗風險最小化，這是基於機器學習中的錯誤分解[17]進行分析的。這為更有組織和系統的方式改進FSL方法提供了見解。

•進行了廣泛的文獻回顧，並從數據、模型和算法的角度將其組織成統一的分類法。還總結了見解，並討論了每一類的利弊。這有助於更好地理解FSL方法。

•在問題設置、技術、應用和理論方面為FSL提出了有希望的未來方向。這些見解是基於當前FSL發展的弱點，以及未來可能的改進。
機器學習在數據密集型應用中取得了很大成功，但在面臨小數據集的情況下往往捉襟見肘。近期出現的小樣本學習（Few-Shot Learning，FSL）方法旨在解決該問題。FSL 利用先驗知識，能夠快速泛化至僅包含少量具備監督信息的樣本的新任務中。
這篇論文對 FSL 方法進行了綜述。首先，該論文給出了 FSL 的正式定義，並厘清了它與相關機器學習問題（弱監督學習、不平衡學習、遷移學習和元學習）的關聯和差異。然后指出 FSL 的核心問題，即經驗風險最小化方法不可靠。
基於各個方法利用先驗知識處理核心問題的方式，該研究將 FSL 方法分為三大類：