圖片樣本集


圖像識別訓練樣本集

ImageNet

ImageNet是一個計算機視覺系統識別項目,是目前世界上圖像識別最大的數據庫。是美國斯坦福的計算機科學家李飛飛模擬人類的識別系統建立的。能夠從圖片識別物體。目前已經包含14197122張圖像,是已知的最大的圖像數據庫。每年的ImageNet大賽更是魂縈夢牽着國內外各個名校和大型IT公司以及網絡巨頭的心。圖像如下圖所示,需要注冊ImageNet帳號才可以下載,下載鏈接為http://www.image-net.org/

 

PASCAL VOC

PASCALVOC 數據集是視覺對象的分類識別和檢測的一個基准測試,提供了檢測算法和學習性能的標准圖像注釋數據集和標准的評估系統。圖像如下圖所示,包含VOC2007(430M),VOC2012(1.9G)兩個下載版本。下載鏈接為http://pjreddie.com/projects/pascal-voc-dataset-mirror/

Labelme

Labelme是斯坦福一個學生的母親利用休息時間幫兒子做的標注,后來便發展為一個數據集。該數據集的主要特點包括

(1)專門為物體分類識別設計,而非僅僅是實例識別
(2)專門為學習嵌入在一個場景中的對象而設計
(3)高質量的像素級別標注,包括多邊形框(polygons)和背景標注(segmentation masks)
(4)物體類別多樣性大,每種物體的差異性,多樣性也大。
(5)所有圖像都是自己通過相機拍攝,而非copy
(6)公開的,免費的

圖像如下圖所示,需要通過matlab來下載,一種奇特的下載方式,下載鏈接為http://labelme2.csail.mit.edu/Release3.0/index.php

COCO
COCO是一種新的圖像識別,分割和加字幕標注的數據集。主要由Tsung-Yi Lin(Cornell Tech),Genevieve Patterson (Brown),MatteoRuggero Ronchi (Caltech),Yin Cui (Cornell Tech),Michael Maire (TTI Chicago),Serge Belongie (Cornell Tech),Lubomir Bourdev (UC Berkeley),Ross Girshick (Facebook AI), James Hays (Georgia Tech),PietroPerona (Caltech),Deva Ramanan (CMU),Larry Zitnick (Facebook AI), Piotr Dollár (Facebook AI)等人收集而成。其主要特征如下

(1)目標分割
(2)通過上下文進行識別
(3)每個圖像包含多個目標對象
(4)超過300000個圖像
(5)超過2000000個實例
(6)80種對象
(7)每個圖像包含5個字幕
(8)包含100000個人的關鍵點

圖像如下圖所示,支持Matlab和Python兩種下載方式,下載鏈接為http://mscoco.org/

SUN
SUN數據集包含131067個圖像,由908個場景類別和4479個物體類別組成,其中背景標注的物體有313884個。圖像如下圖所示,下載鏈接為http://groups.csail.mit.edu/vision/SUN/

Caltech
Caltech是加州理工學院的圖像數據庫,包含Caltech101和Caltech256兩個數據集。該數據集是由Fei-FeiLi, Marco Andreetto, Marc 'Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101種類別的物體,每種類別大約40到800個圖像,大部分的類別有大約50個圖像。Caltech256包含256種類別的物體,大約30607張圖像。圖像如下圖所示,下載鏈接為http://www.vision.caltech.edu/Image_Datasets/Caltech101/

Corel5k

這是Corel5K圖像集,共包含科雷爾(Corel)公司收集整理的5000幅圖片,故名:Corel5K,可以用於科學圖像實驗:分類、檢索等。Corel5k數據集是圖像實驗的事實標准數據集。請勿用於商業用途。私底下學習交流使用。Corel圖像庫涵蓋多個主題,由若干個CD組成,每個CD包含100張大小相等的圖像,可以轉換成多種格式。每張CD代表一個語義主題,例如有公共汽車、恐龍、海灘等。Corel5k自從被提出用於圖像標注實驗后,已經成為圖像實驗的標准數據集,被廣泛應用於標注算法性能的比較。Corel5k由50張CD組成,包含50個語義主題。

Corel5k圖像庫通常被分成三個部分:4000張圖像作為訓練集,500張圖像作為驗證集用來估計模型參數,其余500張作為測試集評價算法性能。使用驗證集尋找到最優模型參數后4000張訓練集和500張驗證集混合起來組成新的訓練集。

該圖像庫中的每張圖片被標注1~5個標注詞,訓練集中總共有374個標注詞,在測試集中總共使用了263個標注詞。圖像如下圖所示,很遺憾本人也未找到官方下載路徑,於是github上傳了一份,下載鏈接為https://github.com/watersink/Corel5K

CIFAR(Canada Institude For Advanced Research)

CIFAR是由加拿大先進技術研究院的AlexKrizhevsky, Vinod Nair和Geoffrey Hinton收集而成的80百萬小圖片數據集。包含CIFAR-10和CIFAR-100兩個數據集。 Cifar-10由60000張32*32的RGB彩色圖片構成,共10個分類。50000張訓練,10000張測試(交叉驗證)。這個數據集最大的特點在於將識別遷移到了普適物體,而且應用於多分類。CIFAR-100由60000張圖像構成,包含100個類別,每個類別600張圖像,其中500張用於訓練,100張用於測試。其中這100個類別又組成了20個大的類別,每個圖像包含小類別和大類別兩個標簽。官網提供了Matlab,C,Python三個版本的數據格式。圖像如下圖所示,下載鏈接為http://www.cs.toronto.edu/~kriz/cifar.html

人臉數據庫:

AFLW(Annotated Facial Landmarks in the Wild)

AFLW人臉數據庫是一個包括多姿態、多視角的大規模人臉數據庫,而且每個人臉都被標注了21個特征點。此數據庫信息量非常大,包括了各種姿態、表情、光照、種族等因素影響的圖片。AFLW人臉數據庫大約包括25000萬已手工標注的人臉圖片,其中59%為女性,41%為男性,大部分的圖片都是彩色,只有少部分是灰色圖片。該數據庫非常適合用於人臉識別、人臉測、人臉對齊等方面的究,具有很高的研究價值。圖像如下圖所示,需要申請帳號才可以下載,下載鏈接為http://lrs.icg.tugraz.at/research/aflw/

LFW(Labeled Faces in the Wild)
LFW是一個用於研究無約束的人臉識別的數據庫。該數據集包含了從網絡收集的13000張人臉圖像,每張圖像都以被拍攝的人名命名。其中,有1680個人有兩個或兩個以上不同的照片。這些數據集唯一的限制就是它們可以被經典的Viola-Jones檢測器檢測到(a hummor)。圖像如下圖所示,下載鏈接為http://vis-www.cs.umass.edu/lfw/index.html#download

AFW(Annotated Faces in the Wild)

AFW數據集是使用Flickr(雅虎旗下圖片分享網站)圖像建立的人臉圖像庫,包含205個圖像,其中有473個標記的人臉。對於每一個人臉都包含一個長方形邊界框,6個地標和相關的姿勢角度。數據庫雖然不大,額外的好處是作者給出了其2012 CVPR的論文和程序以及訓練好的模型。圖像如下圖所示,下載鏈接為http://www.ics.uci.edu/~xzhu/face/

FDDB(Face Detection Data Set and Benchmark)

FDDB數據集主要用於約束人臉檢測研究,該數據集選取野外環境中拍攝的2845個圖像,從中選擇5171個人臉圖像。是一個被廣泛使用的權威的人臉檢測平台。圖像如下圖所示,下載鏈接為http://vis-www.cs.umass.edu/fddb/

WIDER FACE
WIDER FACE是香港中文大學的一個提供更廣泛人臉數據的人臉檢測基准數據集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203個圖像和393703個人臉圖像,在尺度,姿勢,閉塞,表達,裝扮,關照等方面表現出了大的變化。WIDER FACE是基於61個事件類別組織的,對於每一個事件類別,選取其中的40%作為訓練集,10%用於交叉驗證(cross validation),50%作為測試集。和PASCAL VOC數據集一樣,該數據集也采用相同的指標。和MALF和Caltech數據集一樣,對於測試圖像並沒有提供相應的背景邊界框。圖像如下圖所示,下載鏈接為http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

CMU-MIT

CMU-MIT是由卡內基梅隆大學和麻省理工學院一起收集的數據集,所有圖片都是黑白的gif格式。里面包含511個閉合的人臉圖像,其中130個是正面的人臉圖像。圖像如下圖所示,沒有找到官方鏈接,Github下載鏈接為https://github.com/watersink/CMU-MIT

GENKI

GENKI數據集是由加利福尼亞大學的機器概念實驗室收集。該數據集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個圖像,GENKI-4K包含4000個圖像,分為“笑”和“不笑”兩種,每個圖片的人臉的尺度大小,姿勢,光照變化,頭的轉動等都不一樣,專門用於做笑臉識別。GENKI-SZSL包含3500個圖像,這些圖像包括廣泛的背景,光照條件,地理位置,個人身份和種族等。圖像如下圖所示,下載鏈接為http://mplab.ucsd.edu,如果進不去可以,同樣可以去下面的github下載,鏈接https://github.com/watersink/GENKI

IJB-A (IARPA JanusBenchmark A)
IJB-A是一個用於人臉檢測和識別的數據庫,包含24327個圖像和49759個人臉。圖像如下圖所示,需要郵箱申請相應帳號才可以下載,下載鏈接為http://www.nist.gov/itl/iad/ig/ijba_request.cfm

MALF (Multi-Attribute Labelled Faces)
MALF是為了細粒度的評估野外環境中人臉檢測模型而設計的數據庫。數據主要來源於Internet,包含5250個圖像,11931個人臉。每一幅圖像包含正方形邊界框,俯仰、蜷縮等姿勢等。該數據集忽略了小於20*20的人臉,大約838個人臉,占該數據集的7%。同時,該數據集還提供了性別,是否帶眼鏡,是否遮擋,是否是誇張的表情等信息。圖像如下圖所示,需要申請才可以得到官方的下載鏈接,鏈接為http://www.cbsr.ia.ac.cn/faceevaluation/


MegaFace
MegaFace資料集包含一百萬張圖片,代表690000個獨特的人。所有數據都是華盛頓大學從Flickr(雅虎旗下圖片分享網站)組織收集的。這是第一個在一百萬規模級別的面部識別算法測試基准。 現有臉部識別系統仍難以准確識別超過百萬的數據量。為了比較現有公開臉部識別算法的准確度,華盛頓大學在去年年底開展了一個名為“MegaFace Challenge”的公開競賽。這個項目旨在研究當數據庫規模提升數個量級時,現有的臉部識別系統能否維持可靠的准確率。圖像如下圖所示,需要郵箱申請才可以下載,下載鏈接為http://megaface.cs.washington.edu/dataset/download.html

300W
300W數據集是由AFLW,AFW,Helen,IBUG,LFPW,LFW等數據集組成的數據庫。圖像如下圖所示,需要郵箱申請才可以下載,下載鏈接為http://ibug.doc.ic.ac.uk/resources/300-W/

IMM Data Sets

IMM人臉數據庫包括了240張人臉圖片和240個asf格式文件(可以用UltraEdit打開,記錄了58個點的地標),共40個人(7女33男),每人6張人臉圖片,每張人臉圖片被標記了58個特征點。所有人都未戴眼鏡,圖像如下圖所示,下載鏈接為http://www2.imm.dtu.dk/~aam/datasets/datasets.html

MUCT Data Sets

MUCT人臉數據庫由3755個人臉圖像組成,每個人臉圖像有76個點的地標(landmark),圖片為jpg格式,地標文件包含csv,rda,shape三種格式。該圖像庫在種族、關照、年齡等方面表現出更大的多樣性。具體圖像如下圖所示,下載鏈接為http://www.milbo.org/muct/

ORL  (AT&T Dataset)
ORL數據集是劍橋大學AT&T實驗室收集的一個人臉數據集。包含了從1992.4到1994.4該實驗室的成員。該數據集中圖像分為40個不同的主題,每個主題包含10幅圖像。對於其中的某些主題,圖像是在不同的時間拍攝的。在關照,面部表情(張開眼睛,閉合眼睛,笑,非笑),面部細節(眼鏡)等方面都變現出了差異性。所有圖像都是以黑色均勻背景,並且從正面向上方向拍攝。
其中圖片都是PGM格式,圖像大小為92*102,包含256個灰色通道。具體圖像如下圖所示,下載鏈接為http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

行人檢測數據庫
INRIA Person Dataset
Inria數據集是最常使用的行人檢測數據集。其中正樣本(行人)為png格式,負樣本為jpg格式。里面的圖片分為只有車,只有人,有車有人,無車無人四個類別。圖片像素為70*134,96*160,64*128等。具體圖像如下圖所示,下載鏈接為http://pascal.inrialpes.fr/data/human/

CaltechPedestrian Detection Benchmark
加州理工學院的步行數據集包含大約包含10個小時640x480 30Hz的視頻。其主要是在一個在行駛在鄉村街道的小車上拍攝。視頻大約250000幀(在137個約分鍾的長段),共有350000個邊界框和2300個獨特的行人進行了注釋。注釋包括包圍盒和詳細的閉塞標簽之間的時間對應關系。更多信息可在其PAMI 2012 CVPR 2009標桿的論文獲得。具體圖像如下圖所示,下載鏈接為http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

MIT cbcl (center for biological and computational learning)Pedestrian Data
該數據集主要包含2個部分,一部分為128*64的包含924個圖片的ppm格式的圖片,另一部分為從打圖中分別切割而出的小圖,主要包含胳膊,腦袋,腳,腿,頭肩,身體等。具體圖像如下圖所示,下載鏈接為http://cbcl.mit.edu/software-datasets/PedestrianData.html,需要翻牆才可以。

年齡,性別數據庫
Adience
該數據集來源為Flickr相冊,由用戶使用iPhone5或者其它智能手機設備拍攝,同時具有相應的公眾許可。該數據集主要用於進行年齡和性別的未經過濾的面孔估計。同時,里面還進行了相應的landmark的標注。是做性別年齡估計和人臉對齊的一個數據集。圖片包含2284個類別和26580張圖片。具體圖像如下圖所示,下載鏈接為http://www.openu.ac.il/home/hassner/Adience/data.html#agegender

車輛數據庫
KITTI(Karlsruhe Institute ofTechnology and Toyota Technological Institute)
KITTI包含7481個訓練圖片和7518個測試圖片。所有圖片都是真彩色png格式。該數據集中標注了車輛的類型,是否截斷,遮擋情況,角度值,2維和3維box框,位置,旋轉角度,分數等重要的信息,絕對是做車載導航的不可多得的數據集。具體圖像如下圖所示,下載鏈接為http://www.cvlibs.net/datasets/kitti/

字符數據庫
MNIST(Mixed National Instituteof Standards and Technology)
MNIST是一個大型的手寫數字數據庫,廣泛用於機器學習領域的訓練和測試,由紐約大學的Yann LeCun整理。MNIST包含60000個訓練集,10000個測試集,每張圖都進行了尺度歸一化和數字居中處理,固定尺寸大小為28*28。具體圖像如下圖所示,下載鏈接為http://yann.lecun.com/exdb/mnist/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM