目標是對UCI的手寫數字數據集進行識別,樣本數量大約是1600個。圖片大小為16x16。要求必須使用SVM作為二分類的分類器。
本文重點是如何使用卷積神經網絡(CNN)來提取手寫數字圖片特征,主要想看如何提取特征的請直接看源代碼部分的94行左右,只要對tensorflow有一點了解就可以看懂。在最后會有完整的源代碼、處理后數據的分享鏈接。轉載請保留原文鏈接,謝謝。
UCI手寫數字的數據集
源數據下載:http://oddmqitza.bkt.clouddn.com/archivetempsemeion.data
其中前256維為16x16的圖片,后10維為one hot編碼的標簽。即0010000000代表2,1000000000代表0.
組合成圖片大約是這樣的:
卷積和池化形象理解
卷積
池化
仔細的看,慢慢想就能明白CNN提取特征的思想巧妙之處。
能明白這兩點,剩下的東西就和普通的神經網絡區別不大了。
為什么要用CNN提取特征?
1.由於卷積和池化計算的性質,使得圖像中的平移部分對於最后的特征向量是沒有影響的。從這一角度說,提取到的特征更不容易過擬合。而且由於平移不變性,所以平移字符進行變造是無意義的,省去了再對樣本進行變造的過程。
2.CNN抽取出的特征要比簡單的投影、方向,重心都要更科學。不會讓特征提取成為最后提高准確率的瓶頸、天花板
3.可以利用不同的卷積、池化和最后輸出的特征向量的大小控制整體模型的擬合能力。在過擬合時可以降低特征向量的維數,在欠擬合時可以提高卷積層的輸出維數。相比於其他特征提取方法更加靈活
算法流程
整理訓練網絡的數據 -> 建立卷積神經網絡 -> 將數據代入進行訓練 -> 保存訓練好的模型 -> 把數據代入模型獲得特征向量 -> 用特征向量代替原本的X送入SVM訓練 -> 測試時同樣將X轉換為特征向量之后用SVM預測,獲得結果。
CNN結構和參數
如圖所示:
第一個卷積核大小為5x5
第一個池化層是2x2最大池化,輸出32維
第二個卷積核大小為5x5
第二個池化層是2x2最大池化,輸出64維
全連接層輸出256維特征向量。
輸出層最終采用softmax函數,以交叉熵作為優化目標。
SVM的參數
SVM采用的是RBF核
C取0.9
Tol取1e-3
Gamma為scikit-learn自動設置
其實在實驗中發現,如果特征提取的不夠好,那么怎么調SVM的參數也達不到一個理想的狀態。而特征提取的正確,那么同樣,SVM的參數影響也不是很大,可能調了幾次最后僅僅改變一兩個樣本的預測結果。
樣本處理過程
1.將原樣本隨機地分為兩半。一份為訓練集,一份為測試集
2.重復1過程十次,得到十個訓練集和十個對應的測試集
操作過程
1.取十份訓練集中的一份和其對應的測試集。代入到CNN和SVM中訓練。計算模型在剩下9個測試集中的表現。
2.依次取訓練集和測試集,則可完成十次第一步。
3.將十次的表現綜合評價
源代碼及注釋
# coding=utf8
import random
import numpy as np
import tensorflow as tf
from sklearn import svm
right0 = 0.0 # 記錄預測為1且實際為1的結果數
error0 = 0 # 記錄預測為1但實際為0的結果數
right1 = 0.0 # 記錄預測為0且實際為0的結果數
error1 = 0 # 記錄預測為0但實際為1的結果數
for file_num in range(10):
# 在十個隨機生成的不相干數據集上進行測試,將結果綜合
print 'testing NO.%d dataset.......' % file_num
ff = open('digit_train_' + file_num.__str__() + '.data')
rr = ff.readlines()
x_test2 = []
y_test2 = []
for i in range(len(rr)):
x_test2.append(map(int, map(float, rr[i].split(' ')[:256])))
y_test2.append(map(int, rr[i].split(' ')[256:266]))
ff.close()
# 以上是讀出訓練數據
ff2 = open('digit_test_' + file_num.__str__() + '.data')
rr2 = ff2.readlines()
x_test3 = []
y_test3 = []
for i in range(len(rr2)):
x_test3.append(map(int, map(float, rr2[i].split(' ')[:256])))
y_test3.append(map(int, rr2[i].split(' ')[256:266]))
ff2.close()
# 以上是讀出測試數據
sess = tf.InteractiveSession()
# 建立一個tensorflow的會話
# 初始化權值向量
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
# 初始化偏置向量
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
# 二維卷積運算,步長為1,輸出大小不變
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
# 池化運算,將卷積特征縮小為1/2
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
# 給x,y留出占位符,以便未來填充數據
x = tf.placeholder("float", [None, 256])
y_ = tf.placeholder("float", [None, 10])
# 設置輸入層的W和b
W = tf.Variable(tf.zeros([256, 10]))
b = tf.Variable(tf.zeros([10]))
# 計算輸出,采用的函數是softmax(輸入的時候是one hot編碼)
y = tf.nn.softmax(tf.matmul(x, W) + b)
# 第一個卷積層,5x5的卷積核,輸出向量是32維
w_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])
x_image = tf.reshape(x, [-1, 16, 16, 1])
# 圖片大小是16*16,,-1代表其他維數自適應
h_conv1 = tf.nn.relu(conv2d(x_image, w_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)
# 采用的最大池化,因為都是1和0,平均池化沒有什么意義
# 第二層卷積層,輸入向量是32維,輸出64維,還是5x5的卷積核
w_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, w_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
# 全連接層的w和b
w_fc1 = weight_variable([4 * 4 * 64, 256])
b_fc1 = bias_variable([256])
# 此時輸出的維數是256維
h_pool2_flat = tf.reshape(h_pool2, [-1, 4 * 4 * 64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, w_fc1) + b_fc1)
# h_fc1是提取出的256維特征,很關鍵。后面就是用這個輸入到SVM中
#比方說,我訓練完數據了,那么想要提取出來全連接層的h_fc1,
#那么使用的語句是sess.run(h_fc1, feed_dict={x: input_x}),返回的結果就是特征向量
# 設置dropout,否則很容易過擬合
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
# 輸出層,在本實驗中只利用它的輸出反向訓練CNN,至於其具體數值我不關心
w_fc2 = weight_variable([256, 10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, w_fc2) + b_fc2)
cross_entropy = -tf.reduce_sum(y_ * tf.log(y_conv))
# 設置誤差代價以交叉熵的形式
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
# 用adma的優化算法優化目標函數
correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
sess.run(tf.initialize_all_variables())
for i in range(3000):
# 跑3000輪迭代,每次隨機從訓練樣本中抽出50個進行訓練
batch = ([], [])
p = random.sample(range(795), 50)
for k in p:
batch[0].append(x_test2[k])
batch[1].append(y_test2[k])
if i % 100 == 0:
train_accuracy = accuracy.eval(feed_dict={x: batch[0], y_: batch[1], keep_prob: 1.0})
# print "step %d, train accuracy %g" % (i, train_accuracy)
train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.6})
# 設置dropout的參數為0.6,測試得到,大點收斂的慢,小點出現過擬合
print "test accuracy %g" % accuracy.eval(feed_dict={x: x_test3, y_: y_test3, keep_prob: 1.0})
for h in range(len(y_test2)):
if np.argmax(y_test2[h]) == 7:
y_test2[h] = 1
else:
y_test2[h] = 0
for h in range(len(y_test3)):
if np.argmax(y_test3[h]) == 7:
y_test3[h] = 1
else:
y_test3[h] = 0
# 以上兩步都是為了將源數據的one hot編碼改為1和0,我的學號尾數為7
x_temp = []
for g in x_test2:
x_temp.append(sess.run(h_fc1, feed_dict={x: np.array(g).reshape((1, 256))})[0])
# 將原來的x帶入訓練好的CNN中計算出來全連接層的特征向量,將結果作為SVM中的特征向量
x_temp2 = []
for g in x_test3:
x_temp2.append(sess.run(h_fc1, feed_dict={x: np.array(g).reshape((1, 256))})[0])
clf = svm.SVC(C=0.9, kernel='rbf')
clf.fit(x_temp, y_test2)
# SVM選擇了rbf核,C選擇了0.9
for j in range(len(x_temp2)):
# 驗證時出現四種情況分別對應四個變量存儲
if clf.predict(x_temp2[j])[0] == y_test3[j] == 1:
right0 += 1
elif clf.predict(x_temp2[j])[0] == y_test3[j] == 0:
right1 += 1
elif clf.predict(x_temp2[j])[0] == 1 and y_test3[j] == 0:
error0 += 1
else:
error1 += 1
accuracy = right0 / (right0 + error0) # 准確率
recall = right0 / (right0 + error1) # 召回率
print 'svm right ratio ', (right0 + right1) / (right0 + right1 + error0 + error1) #分類的正確率
print 'accuracy ', accuracy
print 'recall ', recall
print 'F1 score ', 2 * accuracy * recall / (accuracy + recall) # F1值
最后結果為:
分類的正確率達到了99.1%,准確率98.77%,召回率為92.67%,F1值為0.9562
由於我們是十次驗證取平均值,所以模型的泛化能力和准確度都還是比較令人滿意的。
全部源代碼和使用到的數據(按照前文規則生成的訓練集和測試集)下載鏈接:https://chuxiuhong-1300368171.cos.ap-shanghai.myqcloud.com/CNN-SVM.rar