前言
本系列為機器學習算法的總結和歸納,目的為了清晰闡述算法原理,同時附帶上手代碼實例,便於理解。
目錄
組合算法(Ensemble Method)
機器學習算法總結
本章為k近鄰算法,內容包括模型介紹及代碼實現(包括自主實現和sklearn案例)。
一、算法簡介
1.1 基本概念
k近鄰法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一種基本分類與回歸方法。
基本概念如下:存在一個樣本數據集合,所有特征屬性已知,並且樣本集中每個對象都已知所屬分類。對不知道分類的待測對象,將待測對象的每個特征屬性與樣本集中數據對應的特征屬性進行比較,然后算法提取樣本最相似對象(最近鄰)的分類標簽。一般來說,我們只選擇樣本數據集中前k個最相似的對象數據,這就是k-近鄰算法中k的出處,通常k是不大於20的整數。最后根據這k個數據的特征和屬性,判斷待測數據的分類
1.2 K近鄰的三個基本要素
1) k值的選取。在應用中,k值一般選擇一個比較小的值,一般選用交叉驗證來取最優的k值
2)距離度量。
Lp距離:誤差絕對值p次方求和再求p次根。歐式距離:p=2的
Lp距離。曼哈頓距離:p=1的
Lp距離。p為無窮大時,
Lp距離為各個維度上距離的最大值
3)分類決策規則。也就是如何根據k個最近鄰決定待測對象的分類。k最近鄰的分類決策規則一般選用多數表決
1.3 KNN基本執行步驟
1)計算待測對象和訓練集中每個樣本點的歐式距離
2)對上面的所有距離值排序
3)選出k個最小距離的樣本作為“選民”
4)根據“選民”預測待測樣本的分類或值
1.4 KNN特點
1)原理簡單
2)保存模型需要保存所有樣本集
3)訓練過程很快,預測速度很慢
· 優點:
簡單好用,容易理解,精度高,理論成熟,既可以用來做分類也可以用來做回歸;
可用於非線性分類;
可用於數值型數據和離散型數據(既可以用來估值,又可以用來分類)
訓練時間復雜度為O(n);無數據輸入假定;
對異常值不敏感。
准確度高,對數據沒有假設,對outlier不敏感;
· 缺點:
計算復雜性高;空間復雜性高;需要大量的內存
樣本不平衡問題(即有些類別的樣本數量很多,而其它樣本的數量很少);
一般數值很大的時候不用這個,計算量太大。但是單個樣本又不能太少,否則容易發生誤分。
最大的缺點是無法給出數據的內在含義。
需要思考的問題:
樣本屬性如何選擇?如何計算兩個對象間距離?當樣本各屬性的類型和尺度不同時如何處理?各屬性不同重要程度如何處理?模型的好壞如何評估?
二、代碼實現
K近鄰算法的一般流程:收集數據- 准備數據- 分析數據- 測試算法- 使用算法
2.1 python3代碼實現
2.1.1
首先以電影分類為例,了解kNN工作流程。主要包括創建數據,迭代計算兩點公式。代碼如下

# -*- coding: UTF-8 -*- import numpy as np import operator import collections """ 函數說明:創建數據集 Parameters: 無 Returns: group - 數據集 labels - 分類標簽 """ def createDataSet(): #四組二維特征 group = np.array([[1,101],[5,89],[108,5],[115,8]]) #四組特征的標簽 labels = ['愛情片','愛情片','動作片','動作片'] return group, labels """ 函數說明:kNN算法,分類器 Parameters: inX - 用於分類的數據(測試集) dataSet - 用於訓練的數據(訓練集) labes - 分類標簽 k - kNN算法參數,選擇距離最小的k個點 Returns: sortedClassCount[0][0] - 分類結果 """ def classify0(inx, dataset, labels, k): # 計算距離 dist = np.sum((inx - dataset)**2, axis=1)**0.5 # k個最近的標簽 k_labels = [labels[index] for index in dist.argsort()[0 : k]] # 出現次數最多的標簽即為最終類別 label = collections.Counter(k_labels).most_common(1)[0][0] return label if __name__ == '__main__': #創建數據集 group, labels = createDataSet() #測試集 test = [101,20] #kNN分類 test_class = classify0(test, group, labels, 3) #打印分類結果 print(test_class)
2.1.2
以K近鄰算法實現約會網站配對效果判定。
1)下載數據集 datingTestSet.txt
2)准備數據:數據解析
將數據分為特征矩陣和對應的分類標簽矩陣。
View Code

# -*- coding: UTF-8 -*- import numpy as np """ 函數說明:打開並解析文件,對數據進行分類:1代表不喜歡,2代表魅力一般,3代表極具魅力 Parameters: filename - 文件名 Returns: returnMat - 特征矩陣 classLabelVector - 分類Label向量 """ def file2matrix(filename): #打開文件 fr = open(filename) #讀取文件所有內容 arrayOLines = fr.readlines() #得到文件行數 numberOfLines = len(arrayOLines) #返回的NumPy矩陣,解析完成的數據:numberOfLines行,3列 returnMat = np.zeros((numberOfLines,3)) #返回的分類標簽向量 classLabelVector = [] #行的索引值 index = 0 for line in arrayOLines: #s.strip(rm),當rm空時,默認刪除空白符(包括'\n','\r','\t',' ') line = line.strip() #使用s.split(str="",num=string,cout(str))將字符串根據'\t'分隔符進行切片。 listFromLine = line.split('\t') #將數據前三列提取出來,存放到returnMat的NumPy矩陣中,也就是特征矩陣 returnMat[index,:] = listFromLine[0:3] #根據文本中標記的喜歡的程度進行分類,1代表不喜歡,2代表魅力一般,3代表極具魅力 if listFromLine[-1] == 'didntLike': classLabelVector.append(1) elif listFromLine[-1] == 'smallDoses': classLabelVector.append(2) elif listFromLine[-1] == 'largeDoses': classLabelVector.append(3) index += 1 return returnMat, classLabelVector """ 函數說明:main函數 Parameters: 無 Returns: 無 """ if __name__ == '__main__': #打開的文件名 filename = "datingTestSet.txt" #打開並處理數據 datingDataMat, datingLabels = file2matrix(filename) print(datingDataMat) print(datingLabels)
3)分析數據:數據可視化
直觀的發現數據的規律
View Code

""" 函數說明:可視化數據 Parameters: datingDataMat - 特征矩陣 datingLabels - 分類Label Returns: 無 """ def showdatas(datingDataMat, datingLabels): #設置漢字格式 font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14) #將fig畫布分隔成1行1列,不共享x軸和y軸,fig畫布的大小為(13,8) #當nrow=2,nclos=2時,代表fig畫布被分為四個區域,axs[0][0]表示第一行第一個區域 fig, axs = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8)) numberOfLabels = len(datingLabels) LabelsColors = [] for i in datingLabels: if i == 1: LabelsColors.append('black') if i == 2: LabelsColors.append('orange') if i == 3: LabelsColors.append('red') #畫出散點圖,以datingDataMat矩陣的第一(飛行常客例程)、第二列(玩游戲)數據畫散點數據,散點大小為15,透明度為0.5 axs[0][0].scatter(x=datingDataMat[:,0], y=datingDataMat[:,1], color=LabelsColors,s=15, alpha=.5) #設置標題,x軸label,y軸label axs0_title_text = axs[0][0].set_title(u'每年獲得的飛行常客里程數與玩視頻游戲所消耗時間占比',FontProperties=font) axs0_xlabel_text = axs[0][0].set_xlabel(u'每年獲得的飛行常客里程數',FontProperties=font) axs0_ylabel_text = axs[0][0].set_ylabel(u'玩視頻游戲所消耗時間占',FontProperties=font) plt.setp(axs0_title_text, size=9, weight='bold', color='red') plt.setp(axs0_xlabel_text, size=7, weight='bold', color='black') plt.setp(axs0_ylabel_text, size=7, weight='bold', color='black') #畫出散點圖,以datingDataMat矩陣的第一(飛行常客例程)、第三列(冰激凌)數據畫散點數據,散點大小為15,透明度為0.5 axs[0][1].scatter(x=datingDataMat[:,0], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5) #設置標題,x軸label,y軸label axs1_title_text = axs[0][1].set_title(u'每年獲得的飛行常客里程數與每周消費的冰激淋公升數',FontProperties=font) axs1_xlabel_text = axs[0][1].set_xlabel(u'每年獲得的飛行常客里程數',FontProperties=font) axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消費的冰激淋公升數',FontProperties=font) plt.setp(axs1_title_text, size=9, weight='bold', color='red') plt.setp(axs1_xlabel_text, size=7, weight='bold', color='black') plt.setp(axs1_ylabel_text, size=7, weight='bold', color='black') #畫出散點圖,以datingDataMat矩陣的第二(玩游戲)、第三列(冰激凌)數據畫散點數據,散點大小為15,透明度為0.5 axs[1][0].scatter(x=datingDataMat[:,1], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5) #設置標題,x軸label,y軸label axs2_title_text = axs[1][0].set_title(u'玩視頻游戲所消耗時間占比與每周消費的冰激淋公升數',FontProperties=font) axs2_xlabel_text = axs[1][0].set_xlabel(u'玩視頻游戲所消耗時間占比',FontProperties=font) axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消費的冰激淋公升數',FontProperties=font) plt.setp(axs2_title_text, size=9, weight='bold', color='red') plt.setp(axs2_xlabel_text, size=7, weight='bold', color='black') plt.setp(axs2_ylabel_text, size=7, weight='bold', color='black') #設置圖例 didntLike = mlines.Line2D([], [], color='black', marker='.', markersize=6, label='didntLike') smallDoses = mlines.Line2D([], [], color='orange', marker='.', markersize=6, label='smallDoses') largeDoses = mlines.Line2D([], [], color='red', marker='.', markersize=6, label='largeDoses') #添加圖例 axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses]) axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses]) axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses]) #顯示圖片 plt.show()
4)數據准備:數據歸一化
使用autoNorm函數自動將數據歸一化
View Code

""" 函數說明:對數據進行歸一化 Parameters: dataSet - 特征矩陣 Returns: normDataSet - 歸一化后的特征矩陣 ranges - 數據范圍 minVals - 數據最小值 """ def autoNorm(dataSet): #獲得數據的最小值 minVals = dataSet.min(0) maxVals = dataSet.max(0) #最大值和最小值的范圍 ranges = maxVals - minVals #shape(dataSet)返回dataSet的矩陣行列數 normDataSet = np.zeros(np.shape(dataSet)) #返回dataSet的行數 m = dataSet.shape[0] #原始值減去最小值 normDataSet = dataSet - np.tile(minVals, (m, 1)) #除以最大和最小值的差,得到歸一化數據 normDataSet = normDataSet / np.tile(ranges, (m, 1)) #返回歸一化數據結果,數據范圍,最小值 return normDataSet, ranges, minVals
5)構建、驗證分類器
將數據分為90%樣本集和10%的測試機(可以調整)
View Code

# -*- coding: UTF-8 -*- import numpy as np import operator """ 函數說明:kNN算法,分類器 Parameters: inX - 用於分類的數據(測試集) dataSet - 用於訓練的數據(訓練集) labes - 分類標簽 k - kNN算法參數,選擇距離最小的k個點 Returns: sortedClassCount[0][0] - 分類結果 """ def classify0(inX, dataSet, labels, k): #numpy函數shape[0]返回dataSet的行數 dataSetSize = dataSet.shape[0] #在列向量方向上重復inX共1次(橫向),行向量方向上重復inX共dataSetSize次(縱向) diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet #二維特征相減后平方 sqDiffMat = diffMat**2 #sum()所有元素相加,sum(0)列相加,sum(1)行相加 sqDistances = sqDiffMat.sum(axis=1) #開方,計算出距離 distances = sqDistances**0.5 #返回distances中元素從小到大排序后的索引值 sortedDistIndices = distances.argsort() #定一個記錄類別次數的字典 classCount = {} for i in range(k): #取出前k個元素的類別 voteIlabel = labels[sortedDistIndices[i]] #dict.get(key,default=None),字典的get()方法,返回指定鍵的值,如果值不在字典中返回默認值。 #計算類別次數 classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #python3中用items()替換python2中的iteritems() #key=operator.itemgetter(1)根據字典的值進行排序 #key=operator.itemgetter(0)根據字典的鍵進行排序 #reverse降序排序字典 sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) #返回次數最多的類別,即所要分類的類別 return sortedClassCount[0][0] """ 函數說明:分類器測試函數 Parameters: 無 Returns: normDataSet - 歸一化后的特征矩陣 ranges - 數據范圍 minVals - 數據最小值 """ def datingClassTest(): #打開的文件名 filename = "datingTestSet.txt" #將返回的特征矩陣和分類向量分別存儲到datingDataMat和datingLabels中 datingDataMat, datingLabels = file2matrix(filename) #取所有數據的百分之十 hoRatio = 0.10 #數據歸一化,返回歸一化后的矩陣,數據范圍,數據最小值 normMat, ranges, minVals = autoNorm(datingDataMat) #獲得normMat的行數 m = normMat.shape[0] #百分之十的測試數據的個數 numTestVecs = int(m * hoRatio) #分類錯誤計數 errorCount = 0.0 for i in range(numTestVecs): #前numTestVecs個數據作為測試集,后m-numTestVecs個數據作為訓練集 classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:], datingLabels[numTestVecs:m], 4) print("分類結果:%d\t真實類別:%d" % (classifierResult, datingLabels[i])) if classifierResult != datingLabels[i]: errorCount += 1.0 print("錯誤率:%f%%" %(errorCount/float(numTestVecs)*100))
6)使用算法:構建完整可用系統

""" 函數說明:通過輸入一個人的三維特征,進行分類輸出 Parameters: 無 Returns: 無 """ def classifyPerson(): #輸出結果 resultList = ['討厭','有些喜歡','非常喜歡'] #三維特征用戶輸入 precentTats = float(input("玩視頻游戲所耗時間百分比:")) ffMiles = float(input("每年獲得的飛行常客里程數:")) iceCream = float(input("每周消費的冰激淋公升數:")) #打開的文件名 filename = "datingTestSet.txt" #打開並處理數據 datingDataMat, datingLabels = file2matrix(filename) #訓練集歸一化 normMat, ranges, minVals = autoNorm(datingDataMat) #生成NumPy數組,測試集 inArr = np.array([ffMiles, precentTats, iceCream]) #測試集歸一化 norminArr = (inArr - minVals) / ranges #返回分類結果 classifierResult = classify0(norminArr, normMat, datingLabels, 3) #打印結果 print("你可能%s這個人" % (resultList[classifierResult-1]))
在cmd中,運行程序,並輸入數據(12,44000,0.5),預測結果是"你可能有些喜歡這個人",也就是這個人魅力一般。一共有三個檔次:討厭、有些喜歡、非常喜歡,對應着不喜歡的人、魅力一般的人、極具魅力的人。
本部分完整代碼請見:
2.2 sklearn包實現
關於sklearn的詳細介紹,請見之前的博客
https://www.cnblogs.com/geo-will/p/9512578.html
2.2.1
sklearn實現k-近鄰算法簡介
官方文檔
2.2.2 KNeighborsClassifier函數8個參數
- n_neighbors:k值,選取最近的k個點,默認為5。
- weights:默認是uniform,參數可以是uniform(均等權重)、distance(按距離分配權重),也可以是用戶自己定義的函數。uniform是均等的權重,就說所有的鄰近點的權重都是相等的。
View Code
- algorithm:快速k近鄰搜索算法,默認參數為auto。除此之外,用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進行搜索。
- leaf_size:默認是30,這個是構造的kd樹和ball樹的大小。這個值的設置會影響樹構建的速度和搜索速度,同樣也影響着存儲樹所需的內存大小。需要根據問題的性質選擇最優的大小。
- metric:用於距離度量,默認度量是minkowski,也就是p=2的歐氏距離(歐幾里德度量)。
- p:距離度量公式。歐氏距離和曼哈頓距離。這個參數默認為2,也可以設置為1。
- metric_params:距離公式的其他關鍵參數,這個可以不管,使用默認的None即可。
- n_jobs:並行處理設置。默認為1,臨近點搜索並行工作數。如果為-1,那么CPU的所有cores都用於並行工作。
2.2.3 實例
基於sklearn實現手寫數字識別系統

# -*- coding: UTF-8 -*- import numpy as np import operator from os import listdir from sklearn.neighbors import KNeighborsClassifier as kNN """ 函數說明:將32x32的二進制圖像轉換為1x1024向量。 Parameters: filename - 文件名 Returns: returnVect - 返回的二進制圖像的1x1024向量 """ def img2vector(filename): #創建1x1024零向量 returnVect = np.zeros((1, 1024)) #打開文件 fr = open(filename) #按行讀取 for i in range(32): #讀一行數據 lineStr = fr.readline() #每一行的前32個元素依次添加到returnVect中 for j in range(32): returnVect[0, 32*i+j] = int(lineStr[j]) #返回轉換后的1x1024向量 return returnVect """ 函數說明:手寫數字分類測試 Parameters: 無 Returns: 無 """ def handwritingClassTest(): #測試集的Labels hwLabels = [] #返回trainingDigits目錄下的文件名 trainingFileList = listdir('trainingDigits') #返回文件夾下文件的個數 m = len(trainingFileList) #初始化訓練的Mat矩陣,測試集 trainingMat = np.zeros((m, 1024)) #從文件名中解析出訓練集的類別 for i in range(m): #獲得文件的名字 fileNameStr = trainingFileList[i] #獲得分類的數字 classNumber = int(fileNameStr.split('_')[0]) #將獲得的類別添加到hwLabels中 hwLabels.append(classNumber) #將每一個文件的1x1024數據存儲到trainingMat矩陣中 trainingMat[i,:] = img2vector('trainingDigits/%s' % (fileNameStr)) #構建kNN分類器 neigh = kNN(n_neighbors = 3, algorithm = 'auto') #擬合模型, trainingMat為訓練矩陣,hwLabels為對應的標簽 neigh.fit(trainingMat, hwLabels) #返回testDigits目錄下的文件列表 testFileList = listdir('testDigits') #錯誤檢測計數 errorCount = 0.0 #測試數據的數量 mTest = len(testFileList) #從文件中解析出測試集的類別並進行分類測試 for i in range(mTest): #獲得文件的名字 fileNameStr = testFileList[i] #獲得分類的數字 classNumber = int(fileNameStr.split('_')[0]) #獲得測試集的1x1024向量,用於訓練 vectorUnderTest = img2vector('testDigits/%s' % (fileNameStr)) #獲得預測結果 # classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) classifierResult = neigh.predict(vectorUnderTest) print("分類返回結果為%d\t真實結果為%d" % (classifierResult, classNumber)) if(classifierResult != classNumber): errorCount += 1.0 print("總共錯了%d個數據\n錯誤率為%f%%" % (errorCount, errorCount/mTest * 100)) """ 函數說明:main函數 Parameters: 無 Returns: 無 """ if __name__ == '__main__': handwritingClassTest()
可以嘗試更改這些參數的設置,加深對其函數的理解。
參考: