圖像識別
- 圖像識別(Image Recognition)是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。
- 圖像識別的發展經歷了三個階段:文字識別、數字圖像處理與識別、物體識別。機器學習領域一般將此類識別問題轉化為分類問題。
手寫識別
- 手寫識別是常見的圖像識別任務。計算機通過手寫體圖片來識別出圖片中的字,與印刷字體不同的是,不同人的手寫體風格迥異,大小不一,造成了計算機對手寫識別任務的一些困難。
- 數字手寫體識別由於其有限的類別(0~9共10個數字)成為了相對簡單的手寫識別任務。DBRHD和MNIST是常用的兩個數字手寫識別數據集。
MNIST數據集
MNIST的下載鏈接:http://yann.lecun.com/exdb/mnist/
MNIST是一個包含數字0~9的手寫體圖片數據集,圖片已歸一化為以手寫數字為中心的28*28規格的圖片。MNIST由訓練集與測試集兩個
部分組成,各部分規模如下:
- 訓練集:60,000個手寫體圖片及對應標簽
- 測試集:10,000個手寫體圖片及對應標簽
MNIST數據集的手寫數字樣例:
- MNIST數據集中的每一個圖片由28*28個像素點組成。
- 每個像素點的值區間為0-255,0表示白色,255表示黑色。
DBRHD數據集
DBRHD (Pen-Based Recognition of HandwrittenDigits Data Set)是UCI的機器學習中心提供的數字手寫體數據庫:
https://archive.ics.uci.edu/ml/datasets/Pen-Based+Recognition+of+Handwritten+Digits
DBRHD數據集包含大量的數字09的手寫體圖片,這些圖片來源於44位不同的人的手寫數字,圖片已歸一化為以手寫數字為中心的32*32規格的圖片。DBRHD的訓練集與測試集組成如下:
- 訓練集:7494個手寫體圖片及對應標簽,來源於40位手寫者。
- 測試集:3498個手寫體圖片及對應標簽,來源於14位手寫者。
DBRHD數據集特點:
- 去掉了圖片顏色等復雜因素,將手寫體數字圖片轉化為訓練數據為大小32*32的文本矩陣。
- 空白區域使用0代表,字跡區域使用1表示。
“手寫識別”實例
已有許多模型在MNIST或DBRHD數據集上進行了實驗,有些模型對數據集進行了偏斜矯正,甚至在數據集上進行了人為的扭曲、偏移、縮放及失真等操作以獲取更加多樣性的樣本,使得模型更具有泛化性。
常用於數字手寫體的分類器:
-
線性分類器
-
K最近鄰分類器
-
非線性分類器
-
SVM
-
MLP多層感知器
-
卷積神經網絡
后續任務
利用全連接的神經網絡實現手寫識別的任務。
個人對於手寫識別還是很感興趣的,雖然這只是最簡單的數字識別,一定好好學!
今天平板修好了,終於可以開始畫畫了,過兩天去貼個膜。