機器學習實戰學習筆記一 k-近鄰算法

本文轉載自查看原文 2013-09-11 17:03 2522 機器學習實戰

k-近鄰算法很簡單，這里就不贅述了，主要看一下python實現這個算法的一些細節。下面是書中給出的算法的具體實現。

def clssify(inX,dataset,label,k):
    #計算距離
    datasetSize = dataset.shape[0]
    diffMat = tile(inX,(dataSize,1))-dataset
    sqdiffMat = diffMat ** 2
    distance = sqdiffMat.sum(axis = 1)
    sorteddistance = distance.argsort()
    labelcount = {}
    for i in range(k):
        label_index = label[sorteddistance[i]]
        labelcount[label_index] = 
    sortedlabel = sorted(labelcount.iteritems(),key = operator.itemgetlabelcount.get(label_index,0)+1ter(0),reverse = True)

    return sortedlabel[0][0]

　　我學習python沒多長時間，一句一句來學習這段代碼，發現收獲不小。首先來看第一句，dataset.shape[0]返回的是dataset這個array的行數。

tile這個函數非常牛逼啊，我只說它在這個里面是什么意思，我們知道inX是個向量，而dataset是個矩陣，兩者之間要進行相減的運算，需要把這個向量也補成一個和dataset有相同行數列數的矩陣，怎么個補法呢。這就要看tile()的第二個參數了，也就是上面的(datasetsize,1)，這個參數的意思就是把inX補成有datasetsize行數的矩陣。

假如inX是（1，2） datasetsize =3 那么經過tile()轉換后產生了一個這樣的矩陣（[1,2],[1,2],[1,2]）

然后和dataset相減就是根據矩陣的減法進行的。接下來看sqdiffMat.sum(axis = 1)這句，假如sqdiffMat是([1,2],[0,1],[3,4])關注下axis這個參數，它影響了你對矩陣求和時候的順序，axis=0是按照行求和，axis=1是按照列進行求和，因此這樣的求和結果就是([4,7])。至於argsort()這個函數的作用很簡單，就是把向量中每個元素進行排序，而它的結果是元素的索引形成的向量。例子如下：

distance是這么個東西------([1,4,3])

經過distance.argsort()之后的結果是([0,2,1])

另外需要主意的一點是sorted()函數返回的是一個list。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習實戰——k-近鄰算法 [機器學習實戰]K-近鄰算法機器學習之K-近鄰算法 Python機器學習筆記：K-近鄰（KNN）算法【機器學習】k-近鄰算法以及算法實例【機器學習】k-近鄰算法以及算法實例機器學習（一）——K-近鄰（KNN）算法 k-近鄰算法原理入門-機器學習機器學習三 -- 用Python實現K-近鄰算法機器學習：K-近鄰算法（KNN）

機器學習實戰學習筆記 一 k-近鄰算法

免責聲明！

機器學習實戰學習筆記一 k-近鄰算法