機器學習4logistic回歸


對於線性回歸、logistic回歸,在以前准備學習深度學習的時候看過一點,當時的數學基礎有點薄弱,雖然現在還是有點差,當時看到神經網絡之后就看不下去了。

不過這次是通過python對logistic回歸進行編碼實現。

線性回歸跟邏輯回歸介紹就不多說了。網上有很多很好的講解。另外我之前也寫過自己學習斯坦福Andrew.Ng的課程的筆記,如下:

http://www.cnblogs.com/fengbing/archive/2013/05/15/3079033.html

http://www.cnblogs.com/fengbing/archive/2013/05/15/3079399.html

http://www.cnblogs.com/fengbing/archive/2013/05/15/3080679.html

http://www.cnblogs.com/fengbing/archive/2013/05/18/3086284.html

http://www.cnblogs.com/fengbing/archive/2013/05/18/3086324.html

http://www.cnblogs.com/fengbing/archive/2013/05/19/3086403.html

以及logistic回歸的推廣softmax回歸http://www.cnblogs.com/fengbing/archive/2013/05/20/3088466.html

說的簡單一點,邏輯回歸就是線性回歸做了一個邏輯映射

這個映射函數一般為image

公式推導參考http://www.cnblogs.com/fengbing/p/3518684.html

具體python代碼

from numpy import *

def loadDataSet():
    dataMat = []; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX):
    return 1.0/(1+exp(-inX))

#參考http://www.cnblogs.com/fengbing/p/3518684.html
def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose() 
    m,n = shape(dataMatrix)#返回矩陣行跟列數100,3
    alpha = 0.001
    maxCycles = 500#最高的迭代次數
    weights = ones((n,1))#[1,1,1]T這個權重可能隨便給一個初始值
    for k in range(maxCycles):              
        h = sigmoid(dataMatrix*weights)     
        error = (labelMat - h)
        weights = weights + alpha * dataMatrix.transpose()* error 
    return weights
結果如下:
>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> logRegres.gradAscent(dataArr,labelMat)
matrix([[ 4.12414349],
        [ 0.48007329],
        [-0.6168482 ]])
 

這樣可以直接計算最后權重的值,不過如何更好的理解了,圖形化,下面分析數據畫出決策邊界

代碼如下:

  1: def plotBestFit(weights):
  2:     import matplotlib.pyplot as plt
  3:     dataMat,labelMat=loadDataSet()
  4:     dataArr = array(dataMat)
  5:     n = shape(dataArr)[0]#數組長度100
  6:     xcord1 = []; ycord1 = []
  7:     xcord2 = []; ycord2 = []
  8:     for i in range(n):
  9:         if int(labelMat[i])== 1:
 10:             xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
 11:         else:
 12:             xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
 13:     fig = plt.figure()
 14:     ax = fig.add_subplot(111)
 15:     ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
 16:     ax.scatter(xcord2, ycord2, s=30, c='green')
 17:     x = arange(-3.0, 3.0, 0.1)
 18:     y = (-weights[0]-weights[1]*x)/weights[2]
 19:     ax.plot(x, y)
 20:     plt.xlabel('X1'); plt.ylabel('X2');
 21:     plt.show()
首先我們得到了最后分類函數 y=θ0+θ1x1+θ2x2
我們畫出y=0這條直線 x1在-3到3直接相差為1的值
則x2=(-θ0-θ1x1)/θ2
最后得出的結果如下:
>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> weights = logRegres.gradAscent(dataArr,labelMat)
>>> logRegres.plotBestFit(weights.getA())
 
        
imageimage
這個梯度上升算法在每次更新回歸系數的時候都要遍歷整個數據集,目前是處理100個左右的數據,如果有數十億樣本,那這個算法的復雜度就非常好了,一種改進的辦法是一次僅用一個樣本來更新回歸系數,這個方法叫隨機梯度上升算法。
由於可以在新的樣本到來時對分類器進行增量式更新,因此這個隨機梯度上升算法也是一個在線學習算法。
偽代碼如下:
image
def stocGradAscent0(dataMatrix, classLabels):
    m,n = shape(dataMatrix)#得到數據集矩陣大小100,3
    alpha = 0.01
    weights = ones(n)
    print weights
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        print h
        error = classLabels[i] - h
        weights = weights + alpha * error * dataMatrix[i]
    return weights

最終結果:

>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> weights = logRegres.stocGradAscent0(array(dataArr),labelMat)
>>> logRegres.plotBestFit(weights)

image

雖然這個擬合的結果沒有剛剛好的,不過這個迭代的次數少,不過對於我們數據挖掘來說要優先考慮准確性,再考慮效率,於是要對該算法進行優化。

下面進行改進,添加alpha值的改變,已經用於計算的樣本隨機選取。

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    m,n = shape(dataMatrix)
    weights = ones(n)   
    for j in range(numIter):
        dataIndex = range(m)
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.0001
            randIndex = int(random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            del(dataIndex[randIndex])
    return weights

結果:

>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> weights = logRegres.stocGradAscent1(array(dataArr),labelMat)
>>> logRegres.plotBestFit(weights)

image

最后給出一個真正預測的問題,解決病馬的生死預測問題。

具體流程:

image

這邊解決一個問題,數據預處理部分的缺失值處理。

一般我們有如下處理方法:

1、忽略元組,就是這個數據的類別不知道的時候,還有就是這個樣本的很多屬性都缺失

2、人工填寫,該方法比較費時

3、使用一個全局常量填充缺失值如-1,這個方法不太可靠

4、使用屬性的均值來替代

5、使用與給定樣本屬於同一類的所有樣本的屬性均值

6、使用最有可能的值填充缺失值,通過貝葉斯、回歸等方法給出缺失值

image

在這個例子中,我們處理如下方法

1、所有的缺失值用一個必須用一個實數值來代替,這個是NumPy不允許包含缺失值。這邊用0來代替,比較適合Logistic回歸。

image

這樣如果缺失值是0的話,這樣這個特征不影響系數值。另外sigmoid(0) = 0.5 這對結果預測也不具備任何傾向性。

2、如果在測試集中發現了一條數據的類別標簽已經缺失,這邊做法簡單,將其丟棄掉。

好,下面就是算法的使用,我們通過訓練集先計算得到參數,這樣我們就可以得到方程式如y=θ0+θ1x1+θ2x2再將求得的y帶入到sigmoid函數中看其與0.5的比較,大就是1,不是就是0.

主要就是對這個數據中多少屬性,以及數據量清楚,存入數組中處理。

最后評估了這個模型,計算了10詞錯誤率的平均值。

def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0

def colicTest():
    frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')
    trainingSet = []; trainingLabels = []
    for line in frTrain.readlines():
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[21]))
    trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000)
    errorCount = 0; numTestVec = 0.0
    for line in frTest.readlines():
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
            errorCount += 1
    errorRate = (float(errorCount)/numTestVec)
    print "the error rate of this test is: %f" % errorRate
    return errorRate

def multiTest():
    numTests = 10; errorSum=0.0
    for k in range(numTests):
        errorSum += colicTest()
    print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))

結果:

>>> import logRegres
>>> logRegres.multiTest()

Warning (from warnings module):
  File "E:\Machine Learning\exercise\ch05\logRegres.py", line 13
    return 1.0/(1+exp(-inX))
RuntimeWarning: overflow encountered in exp
the error rate of this test is: 0.328358
the error rate of this test is: 0.343284
the error rate of this test is: 0.432836
the error rate of this test is: 0.402985
the error rate of this test is: 0.343284
the error rate of this test is: 0.343284
the error rate of this test is: 0.283582
the error rate of this test is: 0.313433
the error rate of this test is: 0.432836
the error rate of this test is: 0.283582
after 10 iterations the average error rate is: 0.350746

這邊有一個警告,是可能溢出的警告,查了一下,可以使用

http://pythonhosted.org/bigfloat/#module-bigfloat

或者直接忽略警告。這邊我沒有處理,有好的處理方法,大家分享。

這個邏輯回歸就到這邊,主要采用了梯度下降算法,另外Andrew.Ng也講了牛頓法,這本書結束會對沒有寫到的一些算法做一些考慮。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM