機器學習4logistic回歸

本文轉載自查看原文 2014-01-14 21:40 6087 機器學習

對於線性回歸、logistic回歸，在以前准備學習深度學習的時候看過一點，當時的數學基礎有點薄弱，雖然現在還是有點差，當時看到神經網絡之后就看不下去了。

不過這次是通過python對logistic回歸進行編碼實現。

線性回歸跟邏輯回歸介紹就不多說了。網上有很多很好的講解。另外我之前也寫過自己學習斯坦福Andrew.Ng的課程的筆記，如下：

http://www.cnblogs.com/fengbing/archive/2013/05/15/3079033.html

http://www.cnblogs.com/fengbing/archive/2013/05/15/3079399.html

http://www.cnblogs.com/fengbing/archive/2013/05/15/3080679.html

http://www.cnblogs.com/fengbing/archive/2013/05/18/3086284.html

http://www.cnblogs.com/fengbing/archive/2013/05/18/3086324.html

http://www.cnblogs.com/fengbing/archive/2013/05/19/3086403.html

以及logistic回歸的推廣softmax回歸http://www.cnblogs.com/fengbing/archive/2013/05/20/3088466.html

說的簡單一點，邏輯回歸就是線性回歸做了一個邏輯映射

這個映射函數一般為

公式推導參考http://www.cnblogs.com/fengbing/p/3518684.html

具體python代碼

from numpy import *

def loadDataSet():
    dataMat = []; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX):
    return 1.0/(1+exp(-inX))

#參考http://www.cnblogs.com/fengbing/p/3518684.html
def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose() 
    m,n = shape(dataMatrix)#返回矩陣行跟列數100，3
    alpha = 0.001
    maxCycles = 500#最高的迭代次數
    weights = ones((n,1))#[1,1,1]T這個權重可能隨便給一個初始值
    for k in range(maxCycles):              
        h = sigmoid(dataMatrix*weights)     
        error = (labelMat - h)
        weights = weights + alpha * dataMatrix.transpose()* error 
    return weights

結果如下：

>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> logRegres.gradAscent(dataArr,labelMat)
matrix([[ 4.12414349],
        [ 0.48007329],
        [-0.6168482 ]])

這樣可以直接計算最后權重的值，不過如何更好的理解了，圖形化，下面分析數據畫出決策邊界

代碼如下：

  1: def plotBestFit(weights):

  2:     import matplotlib.pyplot as plt

  3:     dataMat,labelMat=loadDataSet()

  4:     dataArr = array(dataMat)

  5:     n = shape(dataArr)[0]#數組長度100

  6:     xcord1 = []; ycord1 = []

  7:     xcord2 = []; ycord2 = []

  8:     for i in range(n):

  9:         if int(labelMat[i])== 1:

 10:             xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])

 11:         else:

 12:             xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])

 13:     fig = plt.figure()

 14:     ax = fig.add_subplot(111)

 15:     ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')

 16:     ax.scatter(xcord2, ycord2, s=30, c='green')

 17:     x = arange(-3.0, 3.0, 0.1)

 18:     y = (-weights[0]-weights[1]*x)/weights[2]

 19:     ax.plot(x, y)

 20:     plt.xlabel('X1'); plt.ylabel('X2');

 21:     plt.show()

首先我們得到了最后分類函數 y=θ0+θ1x1+θ2x2

我們畫出y=0這條直線 x1在-3到3直接相差為1的值

則x2=（-θ0-θ1x1）/θ2

最后得出的結果如下：

>>> import logRegres

>>> dataArr,labelMat = logRegres.loadDataSet()

>>> weights = logRegres.gradAscent(dataArr,labelMat)

>>> logRegres.plotBestFit(weights.getA())

這個梯度上升算法在每次更新回歸系數的時候都要遍歷整個數據集，目前是處理100個左右的數據，如果有數十億樣本，那這個算法的復雜度就非常好了，一種改進的辦法是一次僅用一個樣本來更新回歸系數，這個方法叫隨機梯度上升算法。

由於可以在新的樣本到來時對分類器進行增量式更新，因此這個隨機梯度上升算法也是一個在線學習算法。

偽代碼如下：

def stocGradAscent0(dataMatrix, classLabels):

    m,n = shape(dataMatrix)#得到數據集矩陣大小100，3

    alpha = 0.01

    weights = ones(n)

    print weights

    for i in range(m):

        h = sigmoid(sum(dataMatrix[i]*weights))

        print h

        error = classLabels[i] - h

        weights = weights + alpha * error * dataMatrix[i]

    return weights

最終結果：

>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> weights = logRegres.stocGradAscent0(array(dataArr),labelMat)
>>> logRegres.plotBestFit(weights)

雖然這個擬合的結果沒有剛剛好的，不過這個迭代的次數少，不過對於我們數據挖掘來說要優先考慮准確性，再考慮效率，於是要對該算法進行優化。

下面進行改進，添加alpha值的改變，已經用於計算的樣本隨機選取。

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)   
    for j in range(numIter):
        dataIndex = range(m)
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.0001
            randIndex = int(random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights

結果：

>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> weights = logRegres.stocGradAscent1(array(dataArr),labelMat)
>>> logRegres.plotBestFit(weights)

最后給出一個真正預測的問題，解決病馬的生死預測問題。

具體流程：

這邊解決一個問題，數據預處理部分的缺失值處理。

一般我們有如下處理方法：

1、忽略元組，就是這個數據的類別不知道的時候，還有就是這個樣本的很多屬性都缺失

2、人工填寫，該方法比較費時

3、使用一個全局常量填充缺失值如-1，這個方法不太可靠

4、使用屬性的均值來替代

5、使用與給定樣本屬於同一類的所有樣本的屬性均值

6、使用最有可能的值填充缺失值,通過貝葉斯、回歸等方法給出缺失值

在這個例子中，我們處理如下方法

1、所有的缺失值用一個必須用一個實數值來代替，這個是NumPy不允許包含缺失值。這邊用0來代替，比較適合Logistic回歸。

這樣如果缺失值是0的話，這樣這個特征不影響系數值。另外sigmoid（0） = 0.5 這對結果預測也不具備任何傾向性。

2、如果在測試集中發現了一條數據的類別標簽已經缺失，這邊做法簡單，將其丟棄掉。

好，下面就是算法的使用，我們通過訓練集先計算得到參數，這樣我們就可以得到方程式如y=θ0+θ1x1+θ2x2再將求得的y帶入到sigmoid函數中看其與0.5的比較，大就是1，不是就是0.

主要就是對這個數據中多少屬性，以及數據量清楚，存入數組中處理。

最后評估了這個模型，計算了10詞錯誤率的平均值。

def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0

def colicTest():
    frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')
    trainingSet = []; trainingLabels = []
    for line in frTrain.readlines():
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[21]))
    trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000)
    errorCount = 0; numTestVec = 0.0
    for line in frTest.readlines():
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
            errorCount += 1
    errorRate = (float(errorCount)/numTestVec)
    print "the error rate of this test is: %f" % errorRate
    return errorRate

def multiTest():
    numTests = 10; errorSum=0.0
    for k in range(numTests):
        errorSum += colicTest()
    print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))

結果：

>>> import logRegres
>>> logRegres.multiTest()

Warning (from warnings module):
  File "E:\Machine Learning\exercise\ch05\logRegres.py", line 13
    return 1.0/(1+exp(-inX))
RuntimeWarning: overflow encountered in exp
the error rate of this test is: 0.328358
the error rate of this test is: 0.343284
the error rate of this test is: 0.432836
the error rate of this test is: 0.402985
the error rate of this test is: 0.343284
the error rate of this test is: 0.343284
the error rate of this test is: 0.283582
the error rate of this test is: 0.313433
the error rate of this test is: 0.432836
the error rate of this test is: 0.283582
after 10 iterations the average error rate is: 0.350746

這邊有一個警告，是可能溢出的警告，查了一下，可以使用

http://pythonhosted.org/bigfloat/#module-bigfloat

或者直接忽略警告。這邊我沒有處理，有好的處理方法，大家分享。

這個邏輯回歸就到這邊，主要采用了梯度下降算法，另外Andrew.Ng也講了牛頓法，這本書結束會對沒有寫到的一些算法做一些考慮。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習（六）— logistic回歸機器學習-Logistic回歸機器學習二（線性回歸和Logistic回歸）【機器學習實戰】第5章 Logistic回歸機器學習之邏輯回歸（Logistic Regression）【機器學習】邏輯回歸（Logistic Regression）機器學習之Logistic 回歸算法機器學習實戰之logistic回歸機器學習 (三) 邏輯回歸 Logistic Regression 機器學習算法( 五、Logistic回歸算法)