小樣本學習綜述


小樣本學習綜述

數據是機器學習領域的重要資源,在數據缺少的情況下如何訓練模型呢?小樣本學習是其中一個解決方案。來自香港科技大學和第四范式的研究人員綜述了該領域的研究發展,並提出了未來的研究方向。
這篇綜述論文已被 ACM Computing Surveys 接收,作者還建立了 GitHub repo,用於更新該領域的發展。

本文的貢獻總結如下:             

•給出了FSL的正式定義,它自然地與經典的機器學習定義聯系在一起[92,94]。這個定義不僅足夠籠統地包含現有的FSL工作,而且足夠具體地闡明FSL的目標是什么以及如何解決它。這一定義有助於確定未來FSL領域的研究目標。             

•列舉了與FSL相關的學習問題,並舉例說明它們與FSL的關系和區別。這些討論有助於在各種學習問題中更好地辨別和定位FSL。             

•指出FSL監督學習問題的核心問題是不可靠的經驗風險最小化,這是基於機器學習中的錯誤分解[17]進行分析的。這為更有組織和系統的方式改進FSL方法提供了見解。             

•進行了廣泛的文獻回顧,並從數據、模型和算法的角度將其組織成統一的分類法。還總結了見解,並討論了每一類的利弊。這有助於更好地理解FSL方法。             

•在問題設置、技術、應用和理論方面為FSL提出了有希望的未來方向。這些見解是基於當前FSL發展的弱點,以及未來可能的改進。
機器學習在數據密集型應用中取得了很大成功,但在面臨小數據集的情況下往往捉襟見肘。近期出現的小樣本學習(Few-Shot Learning,FSL)方法旨在解決該問題。FSL 利用先驗知識,能夠快速泛化至僅包含少量具備監督信息的樣本的新任務中。
這篇論文對 FSL 方法進行了綜述。首先,該論文給出了 FSL 的正式定義,並厘清了它與相關機器學習問題(弱監督學習、不平衡學習、遷移學習和元學習)的關聯和差異。然后指出 FSL 的核心問題,即經驗風險最小化方法不可靠。
基於各個方法利用先驗知識處理核心問題的方式,該研究將 FSL 方法分為三大類:

  • 數據:利用先驗知識增強監督信號;
  • 模型:利用先驗知識縮小假設空間的大小;
  • 算法:利用先驗知識更改給定假設空間中對最優假設的搜索。

最后,這篇文章提出了 FSL 的未來研究方向:FSL 問題設置、技術、應用和理論。
論文概覽
該綜述論文所覆蓋的主題見下圖:

 

 

 選取介紹了該綜述論文中的部分內容,詳情參見原論文。 什么是小樣本學習?

FSL 是機器學習的子領域。
先來看機器學習的定義:
計算機程序基於與任務 T 相關的經驗 E 學習,並得到性能改進(性能度量指標為 P)。

 

  基於此,該研究將 FSL 定義為:

小樣本學習是一類機器學習問題,其經驗 E 中僅包含有限數量的監督信息。

 

 下圖對比了具備充足訓練樣本和少量訓練樣本的學習算法:

 

 FSL 方法分類


根據先驗知識的利用方式,FSL 方法可分為三類:

 

 FSL 方法解決少樣本問題的不同角度。

基於此,該研究將現有的 FSL 方法納入此框架,得到如下分類體系:

 

 數據

此類 FSL 方法利用先驗知識增強數據 D_train,從而擴充監督信息,利用充足數據來實現可靠的經驗風險最小化。

 

 如上圖所示,根據增強數據的來源,這類 FSL 方法可分為以下三個類別:

 

 模型

基於所用先驗知識的類型,這類方法可分為如下四個類別:

 

 算法

根據先驗知識對搜索策略的影響,此類方法可分為三個類別:

 

 多任務

 

 

 Embedding Learning

 

 

 優化

 

 

 文章最后從問題設置、技術、應用和理論四個層面探討了小樣本學習領域的未來發展方向。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM