機器學習實戰3：邏輯logistic回歸+在線學習+病馬實例

本文轉載自查看原文 2016-06-25 21:35 3582 機器學習

　　本文介紹logistic回歸，和改進算法隨機logistic回歸，及一個病馬是否可以治愈的案例。例子中涉及了數據清洗工作，缺失值的處理。

　　一引言

　　1 sigmoid函數，這個非線性函數十分重要，f(z) = 1 / (1 + e^(-z) ), 畫圖如下：

　　這個函數可以很好的把數軸上的值映射到0，1區間，所以很好的解決了分類問題。下面是代碼：

def sigmoid(inX):
    return 1.0/(1+exp(-inX))

　　2 梯度上升法是我們常用的最優化方法，公式。就是說沿這梯度方向迭代，alpha是步長，控制收斂速度；delta是對各個變量的偏微分；

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
    labelMat = mat(classLabels).transpose() #convert to NumPy matrix
    m,n = shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    weights = ones((n,1))
    for k in range(maxCycles):              #heavy on matrix operations
        h = sigmoid(dataMatrix*weights)     #matrix mult
        error = (labelMat - h)              #vector subtraction
        weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
    return weights

　　所有的數據集迭代500次，步長是0.001，目的是確認參數weights，weights會在500次左右收斂，誤差較小。

　　二邏輯回歸算法

　　思路：根據梯度上升發，求出了最優化的參數weights，帶入logistics分類器，y = (-weights[0]-weights[1]*x)/weights[2]，預測測試樣本即可；

　　inX*weights大於0.5，則分類到1，否則分類到0；主意,inX和weights都是向量；

def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0

　　下面python代碼主要利用了matplotlib這個包，模仿matlab畫出了圖；

def plotBestFit(weights):
    import matplotlib.pyplot as plt
    dataMat,labelMat=loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0] 
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i])== 1:
            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x, y)
    plt.xlabel('X1'); plt.ylabel('X2');
    plt.show()

　　效果還不錯，只有兩個實例分錯了；

　　三 logistics改進：隨機梯度上升

　　改進算法1：

　　上面的logistics缺陷：每次迭代都要遍歷所有的數據集樣本，這樣迭代500次1000000個樣本的數據集，壓力很大；

　　提出增量的方法，每遍歷一個樣本就修改一次weighs；

def stocGradAscent0(dataMatrix, classLabels):
    m,n = shape(dataMatrix)
    alpha = 0.01
    weights = ones(n)   #initialize to all ones
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        error = classLabels[i] - h
        weights = weights + alpha * error * dataMatrix[i]
    return weights

　　可以看出效果不如非增量的，這是可以接受的，因為增量的只遍歷了一遍所有樣本，時間上快了很多。

　　改進算法2：

　　上面的改進算法1，雖然在迭代15000次后三個參數均趨於收斂，但很明顯x1 x2參數存在波動(原因是有些樣本點不能正確分類，數據集也不是全線性不可分的所以誤差很大)，為了避免這種波動，提出了改進算法2；

　　改進點：

　　　　1迭代150次改進的增量算法1，這樣還是比迭代200次全集時間要約簡不少，並且准確率不低；

　　　　2步長alpha不是固定的，這樣可以開始收斂速度大，后來越來越准確的時候收斂速度慢點，后面加0.0001是防止alpha為0。步長為0原地不動迭代就沒有意義；

　　　　3為了避免上圖的波動情況，隨機選取樣本點訓練，然后再原數據集中刪除，避免重復使用；下圖可以看出，選用隨機點可以避免周期性波動，波動確實可以變小；

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)   #initialize to all ones
    for j in range(numIter):
        dataIndex = range(m)
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.0001    #apha decreases with iteration, does not 
            randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights

　　分類結果：

　　四實例：病馬治愈問題

　　先說明下，數據清洗是必要的工作，確實值是我們經常需要處理的；

　　缺失值的解決方案：

　　　　1使用特征的均值；

　　　　2使用-1等特殊值填充；

　　　　3刪除有缺失值的樣本；不推薦，有的數據的獲得是不可恢復的

　　　　4使用相似樣本的值來填充；

　　　　5使用其它算法計算確實值，比如kmeans等；

　若樣本的類屬性缺失，監督學習中一般采用直接刪除的方法；

　　主函數是multiTest()，原理和上面一樣，整體過程如下：

　　　　訓練分類器，獲得線性分類器的參數weighs；

　　　　對測試樣本應用分類器，classifyVector方法返回0或1；

　　　　統計錯誤率；

def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0

def colicTest():
    frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')
    trainingSet = []; trainingLabels = []
    for line in frTrain.readlines():
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[21]))
    trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000)
    errorCount = 0; numTestVec = 0.0
    for line in frTest.readlines():
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
            errorCount += 1
    errorRate = (float(errorCount)/numTestVec)
    print "the error rate of this test is: %f" % errorRate
    return errorRate

def multiTest():
    numTests = 10; errorSum=0.0
    for k in range(numTests):
        errorSum += colicTest()
    print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))

　　五總結

　　1 logistic分類器只適用於數值屬性，不能處理非數值型數據集；

　　2 logistic分類器的目的是尋找一個非線性函數sigmoid的最佳擬合參數；求解過程用到了最優化方法梯度上升法；

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習 (三) 邏輯回歸 Logistic Regression 機器學習之邏輯回歸（Logistic Regression）【機器學習】邏輯回歸（Logistic Regression）【機器學習實戰】第5章 Logistic回歸機器學習實戰之logistic回歸 [機器學習實戰-Logistic回歸]使用Logistic回歸預測各種實例機器學習實戰4：Adaboost提升：病馬實例+非均衡分類問題機器學習（六）— logistic回歸機器學習-Logistic回歸機器學習簡要筆記（五）——Logistic Regression(邏輯回歸）