常用小樣本數據集介紹與下載匯總


 本文整理了近些年常用的小樣本數據集,提供了數據集介紹,參考文獻以及下載地址。有資源的都已經上傳至百度雲盤,其他數據集也提供了官方的下載地址(有些可能需要FQ)。最后還對各個數據集的情況做了一個簡單的匯總。

1.Omniglot
  Omniglot數據集是由來自50種不同語言的1,623個手寫字符構成的,每個字符都有20個不同的筆跡,這就構成了一個樣本類別極多(1623種),但每種類別的樣本數量極少(20個)的小樣本手寫字符數據集。使用中通常選擇1200種字符作為訓練集,剩余的423種字符作為驗證集,並通過旋轉90°,180°和270°進行數據集擴張,每張圖片通過裁剪將尺寸統一為28*28。
  參考文獻:Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).
       下載地址:https://pan.baidu.com/s/19Y5aGfa-lNEZTDUeL1jP4g
  提取碼:4y3z

2. miniImageNet
  miniImageNet數據集是從ImageNet數據集中選擇了60,000張圖像構成的,共100個類別,每個類別有600張圖像,每幅圖像的尺寸為84*84。使用中通常選擇其中80個類別的圖像作為訓練集,剩余的20個類別的圖像作為驗證集。也有的文章將其分為基礎集(Base Class,64種),驗證集(Validation Class,16種)和新類別集(Novel Class,20種)。
  參考文獻:Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.
  下載地址:https://pan.baidu.com/s/1nqBSA1w5mQuhlrQeCY4HgA
  提取碼:ajrz

3. tieredImageNet
  tieredImageNet數據集也是從ImageNet數據集中選取的,包含34個大類(Categories),每個大類有包含10-30個小類(Classes),每個類別有數量不等的多個圖像樣本,共計608個類別,779,165張圖像(平均每個類別包含1281張圖片)。34個大類可划分為訓練集(20大類),驗證集(6大類)和測試集(8大類),數據集划分情況如下圖。

        參考文獻:Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.

  下載地址:
  https://drive.google.com/uc?export=download&confirm=_SLS&id=1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07

4. CUB-200
  CUB-200數據集全稱為Caltech-UCSD Birds-200-2011數據集,是由加利福尼亞理工學院提供的鳥類數據庫,共包含200種鳥類的11,788張圖像。使用中通常划分為訓練集(100種),驗證集(50種)和測試集(50種),圖像尺寸統一裁剪為84*84。
  參考文獻:Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds- 200-2011 dataset. 2011.
  下載地址:https://pan.baidu.com/s/1DEmLxePvDuJX1goSzM9r6Q
  提取碼:f1l5

5. CIFAR-FS
  CIFAR-FS數據集全稱為CIFAR100 Few-Shots數據集,是來自於CIFAR 100數據集,共包含100類別,每個類別600張圖像,合計60,000張圖像。使用中通常划分為訓練集(64種),驗證集(16種)和測試集(20種),圖像尺寸統一為32*32。
  參考文獻:Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.
  下載地址:https://pan.baidu.com/s/1HqRUw3dmsMBInt_Fh3J_Uw
  提取碼:ub38

6. ImageNet-1K Challenge
  ImageNet-1K Challenge數據集同樣來自ImageNet數據集,是共包含1000類別。使用中通常划分為基礎數據集(389個類別)和新樣本數據集(611種)。
  參考文獻:Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.
  下載地址:http://www.image-net.org/

7. FC100
  FC100數據集全稱是Few-shot CIFAR100數據集,與上文的CIFAR-FS數據集類似,同樣來自CIFAR100數據集,共包含100類別,每個類別600張圖像,合計60,000張圖像。但不同之處在於  FC100不是按照類別(Class)進行划分的,而是按照超類(Superclass)進行划分的。共包含20個超類(60個類別),其中訓練集12個超類,驗證集4個超類(20個類別),測試集4個超類(20個類別)。
  參考文獻:Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.
  下載地址:https://pan.baidu.com/s/1Wnlp1-obKsMLcHITYQ1CLg
  提取碼:kcd6

————————————————
版權聲明:本文為CSDN博主「深視」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_36104364/article/details/107508592


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM