首先先介紹一下knn的基本原理:
KNN是通過計算不同特征值之間的距離進行分類。
整體的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。
K通常是不大於20的整數。KNN算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
KNN算法要解決的核心問題是K值選擇,它會直接影響分類結果。
如果選擇較大的K值,就相當於用較大領域中的訓練實例進行預測,其優點是可以減少學習的估計誤差,但缺點是學習的近似誤差會增大。
如果選擇較小的K值,就相當於用較小的領域中的訓練實例進行預測,“學習”近似誤差會減小,只有與輸入實例較近或相似的訓練實例才會對預測結果起作用,與此同時帶來的問題是“學習”的估計誤差會增大,換句話說,K值的減小就意味着整體模型變得復雜,容易發生過擬合;
下面是knn的TensorFlow實現過程,代碼來源於GitHub,稍作修改:
import numpy as np
import tensorflow as tf
#這里使用TensorFlow自帶的數據集作為測試,以下是導入數據集代碼
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
Xtrain, Ytrain = mnist.train.next_batch(5000) #從數據集中選取5000個樣本作為訓練集
Xtest, Ytest = mnist.test.next_batch(200) #從數據集中選取200個樣本作為測試集
# 輸入占位符
xtr = tf.placeholder("float", [None, 784])
xte = tf.placeholder("float", [784])
# 計算L1距離
distance = tf.reduce_sum(tf.abs(tf.add(xtr, tf.negative(xte))), reduction_indices=1)
# 獲取最小距離的索引
pred = tf.arg_min(distance, 0)
#分類精確度
accuracy = 0.
# 初始化變量
init = tf.global_variables_initializer()
# 運行會話,訓練模型
with tf.Session() as sess:
# 運行初始化
sess.run(init)
# 遍歷測試數據
for i in range(len(Xtest)):
# 獲取當前樣本的最近鄰索引
nn_index = sess.run(pred, feed_dict={xtr: Xtrain, xte: Xtest[i, :]}) #向占位符傳入訓練數據
# 最近鄰分類標簽與真實標簽比較
print("Test", i, "Prediction:", np.argmax(Ytr[nn_index]), \
"True Class:", np.argmax(Ytest[i]))
# 計算精確度
if np.argmax(Ytrain[nn_index]) == np.argmax(Ytest[i]):
accuracy += 1./len(Xtest)
print("Done!")
print("Accuracy:", accuracy)
以上就是使用TensorFlow實現knn的過程。
題外話:
tensorflow的整體過程是先設計計算圖,然后運行會話,執行計算圖的過程,整個過程的數據可見性比較差。
以上精確度的計算以及真實標簽和預測標簽的比較結果其實使用numpy和python的變量。
結合TensorFlow的優點和Python的特性才能更好的為現實解決問題服務。