EMNIST: an extension of MNIST to handwritten letters
MNIST數據集
MNIST數據集已經成為機器學習、分類以及計算機視覺系統的一個基准數據集。由於其任務的可理解性和直觀性、相對較小的規模和存儲要求以及數據集本身的可訪問性和易用性,MNIST數據集如今被廣泛采用 。
概述
一個較好基准的重要性不可低估,而且對於問題的標准化方法,尤其是在競爭激烈和快節奏的領域,如機器學習和計算機視覺。這些任務為分析和比較不同的學習方法和技巧提供了一種快速、定量和公平的方法。這使得研究人員能夠快速洞察方法和算法的性能和特點,尤其是當任務是直觀的和概念上簡單的任務時。
由於單個數據集可能只涵蓋一項特定任務,因此存在一套不同的基准任務對於采用更全面的方法來評估和表征算法或系統的性能非常重要。在機器學習社區中,有幾個標准化的數據集被廣泛使用,並變得極具競爭力。其中包括MNIST數據集[1]、CIFAR-10和CIFAR-100數據集[2]、STL-10數據集[3]和街景門牌號(SVHN)數據集[4]。
MNIST數據集包含10類手寫數字分類任務,於1998年首次推出,目前仍是計算機視覺和神經網絡領域最廣為人知和使用最廣泛的數據集。然而,一個好的數據集需要代表一個足夠有挑戰性的問題,使它既有用又確保它的壽命[5]。這也許是MNIST在面對使用深度學習和卷積神經網絡獲得的越來越高的精度時所遭受的損失。多個研究小組已經發表了99.7%以上的准確率[6]–[10],這是一個分類准確率,在這個分類准確率下,數據集的標注可能會受到質疑。因此,它更多的是一種測試和驗證分類系統的手段,而不是一個有意義或有挑戰性的基准。
MNIST數據集的可訪問性幾乎肯定有助於其廣泛使用。整個數據集相對較小(與最近的基准數據集相比),可以自由訪問和使用,並且以完全直接的方式進行編碼和存儲。編碼不使用復雜的存儲結構、壓縮或專有數據格式。因此,從任何平台或通過任何編程語言訪問和包含數據集都非常容易。
為了促進這一數據集的使用,顯然需要創建一套定義明確的數據集,全面規定分類任務的性質和數據集的結構,從而能夠在多組結果之間進行簡單直接的比較。本文介紹了這樣一套數據集,稱為擴展修正NIST (EMNIST)。這些數據集來自NIST特殊數據庫19,旨在為神經網絡和學習系統提供更具挑戰性的分類任務。通過直接匹配原始MNIST數據集中的圖像規格、數據集組織和文件格式,這些數據集被設計為現有網絡和系統的直接替代。
EMNIST數據集
EMNIST數據集中“按類別分類”和“按合並分類”數據集都包含完整的814255個字符,只是分配的類別數量不同。因此,樣本字母類中的分布在兩個數據集之間是不同的。但在兩個數據集之間,數字類中的樣本數量保持不變。
EMNIST平衡數據集(balanced)是最廣泛適用的數據集,因為它包含所有按合並類的平衡子集。選擇47類數據集而不是62類數據集,是為了避免純粹由於大寫字母和小寫字母之間的錯誤分類而導致的分類錯誤。
EMNIST字母數據集試圖通過合並所有大寫和小寫類別來形成一個平衡的26類分類任務,從而進一步減少因大小寫混淆而發生的錯誤。

