Python 手寫數字識別-knn算法應用

本文轉載自查看原文 2018-09-13 19:30 803 python基礎知識

knn算法代碼：

from numpy import *
import operator
import os

def img2vector(filename):
    """
    filename代表文件名稱
    """
    returnVector = zeros((1,1024))##聲明一個0矩陣
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()##每一行文件
        for j in range(32):
            returnVector[0,32*i+j] = int(lineStr[j])##一共32行，全部存儲到returnVector里面
    fr.close()
    return returnVector

def classify(inX, dataSet, labels, k):
    """
    四個參數，inX是測試向量，dataSet樣本向量數據，labels是標簽，k是選取前k個做評測
    tile(A,n)用於重復A矩陣n次
    argsort()返回的是數組值從小到大的索引
    list.get(k,d)
    get()相當於一條if...else...語句,參數k在字典中，字典將返回list[k];如果參數k不在字典中則返回參數d,如果K在字典中則返回k對應的value值；
    例子：
    l = {5:2,3:4}
    print l.get(3,0)返回的值是4；
    Print l.get（1,0）返回值是0；(該例來源於網絡)
    """
    dataSetSize = dataSet.shape[0]  ##shpe函數用於返回矩陣的長度，如shape[0]返回第一維矩陣長度，shape[1]返回第二維矩陣長度以此類推，還有其他功能執行查閱
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet  ##tile函數主要功能是重復矩陣多少次，重復了測試向量，與每一個樣本相減
    sqDiffMat = diffMat ** 2  ##計算平方
    sqDistances = sqDiffMat.sum(axis=1)  ##計算矩陣橫軸的和
    distances = sqDistances ** 0.5  ##平方
    sortedDistIndicies = distances.argsort()  ##用argsort排序
    classCount = {}
    for i in range(k):
        voteLabel = labels[sortedDistIndicies[i]]  ##通過索引得到前該距離所屬的類型
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1  ##相應的類型+1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

 #classTest()函數用於處理32*32的數據，

def classTest():
    file_object = open('result.txt', 'w')
    Labels = []
    trainingFileList = os.listdir("./digits/trainingDigits/")  ##listdir函數用於獲取該目錄下的文件列表，並且以數組的方式存儲
    length = len(trainingFileList)  ##獲取數組長度
    trainingMat = zeros((length, 1024))  ##聲明一個length*1024的矩陣用於存儲所有樣本的向量形式
    for i in range(length):
        fileNameStr = trainingFileList[i]  ##獲取列表中每一個文件名(包含擴展名)
        fileName = fileNameStr.split('.')[0]  ##獲取列表中每一個文件名(不包含擴展名)
        numClass = fileName.split('_')[0]  ##獲取該文件所屬的類別（因為文件名都是以‘數字類別_第幾個樣本.txt’形式的，所以需要進行兩次的split函數）
        Labels.append(numClass)  ##以隊列的形式加入到Labels的隊尾
        trainingMat[i, :] = img2vector(
            "./digits/trainingDigits/" + fileNameStr)  ##用img2vector()函數處理32*32的圖片矩陣，存入trainingMat中
    testFileList = os.listdir("./digits/testDigits/")  ##測試組的文件列表，下面的代碼意思如上，多余的就不寫了
    errorCount = 0.0
    lengthTest = len(testFileList)
    for i in range(lengthTest):
        fileNameStr = testFileList[i]
        fileName = fileNameStr.split('.')[0]
        numClass = fileName.split('_')[0]
        vectorUnderTest = img2vector("./digits/testDigits/" + fileNameStr)
        classifierResult = classify(vectorUnderTest, trainingMat, Labels, 3)
        file_object.write(str(classifierResult) + "       " + str(numClass) + '\n')
        print  ("come back result is %s.......real result is %s" %(classifierResult,numClass))
        if(classifierResult !=numClass): errorCount+=1.0
        print("\n the total number of errors is  %d" % (errorCount))
        print("\n the total error rate is  %f" % (errorCount/float(lengthTest)))
    file_object.close()
if __name__ == "__main__":
    classTest()

digits/trainingDigits數據集：　鏈接：https://pan.baidu.com/s/1gEa4jGi-PSyFtAizd0KTew 密碼：ebyf

運行結果

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 手寫數字識別-knn算法應用 KNN算法識別手寫數字基於OpenCV的KNN算法實現手寫數字識別 KNN 算法-實戰篇-如何識別手寫數字 KNN分類算法實現手寫數字識別 KNN分類算法實現手寫數字識別手寫數字識別【機器學習】手寫數字識別算法 Python實現神經網絡算法識別手寫數字集 k最鄰近算法——使用kNN進行手寫識別