對於線性回歸、logistic回歸,在以前准備學習深度學習的時候看過一點,當時的數學基礎有點薄弱,雖然現在還是有點差,當時看到神經網絡之后就看不下去了。
不過這次是通過python對logistic回歸進行編碼實現。
線性回歸跟邏輯回歸介紹就不多說了。網上有很多很好的講解。另外我之前也寫過自己學習斯坦福Andrew.Ng的課程的筆記,如下:
http://www.cnblogs.com/fengbing/archive/2013/05/15/3079033.html
http://www.cnblogs.com/fengbing/archive/2013/05/15/3079399.html
http://www.cnblogs.com/fengbing/archive/2013/05/15/3080679.html
http://www.cnblogs.com/fengbing/archive/2013/05/18/3086284.html
http://www.cnblogs.com/fengbing/archive/2013/05/18/3086324.html
http://www.cnblogs.com/fengbing/archive/2013/05/19/3086403.html
以及logistic回歸的推廣softmax回歸http://www.cnblogs.com/fengbing/archive/2013/05/20/3088466.html
說的簡單一點,邏輯回歸就是線性回歸做了一個邏輯映射
公式推導參考http://www.cnblogs.com/fengbing/p/3518684.html
具體python代碼
from numpy import * def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line in fr.readlines(): lineArr = line.strip().split() dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) labelMat.append(int(lineArr[2])) return dataMat,labelMat def sigmoid(inX): return 1.0/(1+exp(-inX)) #參考http://www.cnblogs.com/fengbing/p/3518684.html def gradAscent(dataMatIn, classLabels): dataMatrix = mat(dataMatIn) labelMat = mat(classLabels).transpose() m,n = shape(dataMatrix)#返回矩陣行跟列數100,3 alpha = 0.001 maxCycles = 500#最高的迭代次數 weights = ones((n,1))#[1,1,1]T這個權重可能隨便給一個初始值 for k in range(maxCycles): h = sigmoid(dataMatrix*weights) error = (labelMat - h) weights = weights + alpha * dataMatrix.transpose()* error return weights
結果如下:
>>> import logRegres >>> dataArr,labelMat = logRegres.loadDataSet() >>> logRegres.gradAscent(dataArr,labelMat) matrix([[ 4.12414349], [ 0.48007329], [-0.6168482 ]])
這樣可以直接計算最后權重的值,不過如何更好的理解了,圖形化,下面分析數據畫出決策邊界
代碼如下:
1: def plotBestFit(weights):
2: import matplotlib.pyplot as plt
3: dataMat,labelMat=loadDataSet()
4: dataArr = array(dataMat)
5: n = shape(dataArr)[0]#數組長度100
6: xcord1 = []; ycord1 = []
7: xcord2 = []; ycord2 = []
8: for i in range(n):
9: if int(labelMat[i])== 1:
10: xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
11: else:
12: xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
13: fig = plt.figure()
14: ax = fig.add_subplot(111)
15: ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
16: ax.scatter(xcord2, ycord2, s=30, c='green')
17: x = arange(-3.0, 3.0, 0.1)
18: y = (-weights[0]-weights[1]*x)/weights[2]
19: ax.plot(x, y)
20: plt.xlabel('X1'); plt.ylabel('X2');
21: plt.show()
首先我們得到了最后分類函數 y=θ0+θ1x1+θ2x2
我們畫出y=0這條直線 x1在-3到3直接相差為1的值
則x2=(-θ0-θ1x1)/θ2
最后得出的結果如下:
>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> weights = logRegres.gradAscent(dataArr,labelMat)
>>> logRegres.plotBestFit(weights.getA())
這個梯度上升算法在每次更新回歸系數的時候都要遍歷整個數據集,目前是處理100個左右的數據,如果有數十億樣本,那這個算法的復雜度就非常好了,一種改進的辦法是一次僅用一個樣本來更新回歸系數,這個方法叫隨機梯度上升算法。
由於可以在新的樣本到來時對分類器進行增量式更新,因此這個隨機梯度上升算法也是一個在線學習算法。
偽代碼如下:
def stocGradAscent0(dataMatrix, classLabels):
m,n = shape(dataMatrix)#得到數據集矩陣大小100,3
alpha = 0.01
weights = ones(n)
print weights
for i in range(m):
h = sigmoid(sum(dataMatrix[i]*weights))
print h
error = classLabels[i] - h
weights = weights + alpha * error * dataMatrix[i]
return weights
最終結果:
>>> import logRegres >>> dataArr,labelMat = logRegres.loadDataSet() >>> weights = logRegres.stocGradAscent0(array(dataArr),labelMat) >>> logRegres.plotBestFit(weights)
雖然這個擬合的結果沒有剛剛好的,不過這個迭代的次數少,不過對於我們數據挖掘來說要優先考慮准確性,再考慮效率,於是要對該算法進行優化。
下面進行改進,添加alpha值的改變,已經用於計算的樣本隨機選取。
def stocGradAscent1(dataMatrix, classLabels, numIter=150): m,n = shape(dataMatrix) weights = ones(n) for j in range(numIter): dataIndex = range(m) for i in range(m): alpha = 4/(1.0+j+i)+0.0001 randIndex = int(random.uniform(0,len(dataIndex))) h = sigmoid(sum(dataMatrix[randIndex]*weights)) error = classLabels[randIndex] - h weights = weights + alpha * error * dataMatrix[randIndex] del(dataIndex[randIndex]) return weights
結果:
>>> import logRegres >>> dataArr,labelMat = logRegres.loadDataSet() >>> weights = logRegres.stocGradAscent1(array(dataArr),labelMat) >>> logRegres.plotBestFit(weights)
最后給出一個真正預測的問題,解決病馬的生死預測問題。
具體流程:
這邊解決一個問題,數據預處理部分的缺失值處理。
一般我們有如下處理方法:
1、忽略元組,就是這個數據的類別不知道的時候,還有就是這個樣本的很多屬性都缺失
2、人工填寫,該方法比較費時
3、使用一個全局常量填充缺失值如-1,這個方法不太可靠
4、使用屬性的均值來替代
5、使用與給定樣本屬於同一類的所有樣本的屬性均值
6、使用最有可能的值填充缺失值,通過貝葉斯、回歸等方法給出缺失值
在這個例子中,我們處理如下方法
1、所有的缺失值用一個必須用一個實數值來代替,這個是NumPy不允許包含缺失值。這邊用0來代替,比較適合Logistic回歸。
這樣如果缺失值是0的話,這樣這個特征不影響系數值。另外sigmoid(0) = 0.5 這對結果預測也不具備任何傾向性。
2、如果在測試集中發現了一條數據的類別標簽已經缺失,這邊做法簡單,將其丟棄掉。
好,下面就是算法的使用,我們通過訓練集先計算得到參數,這樣我們就可以得到方程式如y=θ0+θ1x1+θ2x2再將求得的y帶入到sigmoid函數中看其與0.5的比較,大就是1,不是就是0.
主要就是對這個數據中多少屬性,以及數據量清楚,存入數組中處理。
最后評估了這個模型,計算了10詞錯誤率的平均值。
def classifyVector(inX, weights): prob = sigmoid(sum(inX*weights)) if prob > 0.5: return 1.0 else: return 0.0 def colicTest(): frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt') trainingSet = []; trainingLabels = [] for line in frTrain.readlines(): currLine = line.strip().split('\t') lineArr =[] for i in range(21): lineArr.append(float(currLine[i])) trainingSet.append(lineArr) trainingLabels.append(float(currLine[21])) trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000) errorCount = 0; numTestVec = 0.0 for line in frTest.readlines(): numTestVec += 1.0 currLine = line.strip().split('\t') lineArr =[] for i in range(21): lineArr.append(float(currLine[i])) if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]): errorCount += 1 errorRate = (float(errorCount)/numTestVec) print "the error rate of this test is: %f" % errorRate return errorRate def multiTest(): numTests = 10; errorSum=0.0 for k in range(numTests): errorSum += colicTest() print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))
結果:
>>> import logRegres >>> logRegres.multiTest() Warning (from warnings module): File "E:\Machine Learning\exercise\ch05\logRegres.py", line 13 return 1.0/(1+exp(-inX)) RuntimeWarning: overflow encountered in exp the error rate of this test is: 0.328358 the error rate of this test is: 0.343284 the error rate of this test is: 0.432836 the error rate of this test is: 0.402985 the error rate of this test is: 0.343284 the error rate of this test is: 0.343284 the error rate of this test is: 0.283582 the error rate of this test is: 0.313433 the error rate of this test is: 0.432836 the error rate of this test is: 0.283582 after 10 iterations the average error rate is: 0.350746
這邊有一個警告,是可能溢出的警告,查了一下,可以使用
http://pythonhosted.org/bigfloat/#module-bigfloat
或者直接忽略警告。這邊我沒有處理,有好的處理方法,大家分享。
這個邏輯回歸就到這邊,主要采用了梯度下降算法,另外Andrew.Ng也講了牛頓法,這本書結束會對沒有寫到的一些算法做一些考慮。