sklearn調用邏輯回歸算法（多項式）與決策邊界

本文轉載自查看原文 2019-08-13 23:55 943 人工智能與機器學習/ Python數據分析與處理/ Python

1、邏輯回歸算法即可以看做是回歸算法，也可以看作是分類算法，通常用來解決分類問題，主要是二分類問題，對於多分類問題並不適合，也可以通過一定的技巧變形來間接解決。

2、決策邊界是指不同分類結果之間的邊界線(或者邊界實體)，它具體的表現形式一定程度上說明了算法訓練模型的過擬合程度，我們可以通過決策邊界來調整算法的超參數。

注解：左邊邏輯回歸擬合決策邊界嘈雜冗余說明過擬合，右邊決策邊界分層清晰說明擬合度好

3、在邏輯回歸中隨着算法的復雜度不斷地提高，其算法的過擬合也會越來越嚴重，為了避免這個現象，我們在邏輯回歸中也需要進行正則化，以減小整體擬合的均方差，減少訓練的過擬合現象。因此sklearn中調用邏輯回歸時含有三個重要的超參數degree(多項式的最高次數)，C（正則化系數）以及penalty（正則化的方式l1/l2）

4、sklearn中邏輯回歸使用的正則化方式如下：

import  numpy as np
import matplotlib.pyplot as plt
#定義概率轉換函數sigmoid函數
def sigmoid(t):
    return 1/(1+np.exp(-t))
x=np.linspace(-10,10,100)
y=sigmoid(x)
plt.figure()
plt.plot(x,y,"r",label="Sigmoid")
plt.legend(loc=2)
plt.show()

from sklearn import datasets
d=datasets.load_iris()
x=d.data
y=d.target
x=x[y<2,:2]
y=y[y<2]


#定義機器學習算法的決策邊界輸出函數
def plot_decision_boundary(model,axis):
 x0,x1=np.meshgrid(
 np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
 np.linspace(axis[2],axis[3], int((axis[3] - axis[2]) * 100)).reshape(-1,1)
 )
 x_new=np.c_[x0.ravel(),x1.ravel()]
 y_pre=model.predict(x_new)
 zz=y_pre.reshape(x0.shape)
 from matplotlib.colors import ListedColormap
 cus=ListedColormap(["#EF9A9A","#FFF59D","#90CAF9"])
 plt.contourf(x0,x1,zz,cmap=cus)

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=666)

from sklearn.neighbors import KNeighborsClassifier
knn1=KNeighborsClassifier()
knn1.fit(x_train,y_train)
plot_decision_boundary(knn1,axis=[4,8,1,5])
plt.scatter(x[y==0,0],x[y==0,1],color="r")
plt.scatter(x[y==1,0],x[y==1,1],color="g")
plt.show()
knn2=KNeighborsClassifier(n_neighbors=50)  #k越大，模型越簡單，也意味着過擬合的程度越輕，決策邊界越清晰
knn2.fit(d.data[:,:2],d.target)
x=d.data
y=d.target
plot_decision_boundary(knn2,axis=[4,8,1,5])
plt.scatter(x[y==0,0],x[y==0,1],color="r")
plt.scatter(x[y==1,0],x[y==1,1],color="g")
plt.scatter(x[y==2,0],x[y==2,1],color="b")
plt.show()

#邏輯回歸添加多項式回歸
import numpy as np
import matplotlib.pyplot as plt
np.random.seed=666
x=np.random.normal(0,1,size=(100,2))
y=np.array(x[:,0]**2+x[:,1]**2<1.5,dtype="int")
knn2=KNeighborsClassifier() 
knn2.fit(x,y)
plot_decision_boundary(knn2,axis=[-4,4,-3,3])
plt.scatter(x[y==0,0],x[y==0,1],color="r")
plt.scatter(x[y==1,0],x[y==1,1],color="g")
plt.show()

### sklearn中調用邏輯回歸算法函數
import numpy as np
import matplotlib.pyplot as plt
np.random.seed=666
x=np.random.normal(0,1,size=(200,2))
y=np.array(x[:,0]**2+x[:,1]<1.5,dtype="int")
for _ in range(20):
    y[np.random.randint(200)]=1
plt.figure()
plt.scatter(x[y==0,0],x[y==0,1],color="r")
plt.scatter(x[y==1,0],x[y==1,1],color="g")
plt.show()
#1-1單純的邏輯回歸算法
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=666)
from sklearn.linear_model import LogisticRegression
log=LogisticRegression()
log.fit(x_train,y_train)
print(log.score(x_test,y_test))
knn3=KNeighborsClassifier()
knn3.fit(x_train,y_train)
print(knn3.score(x_test,y_test))
#1-2sklearn中的邏輯回歸（多項式參與，並不帶正則化）
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
def polynomiallogisticregression(degree):
 return Pipeline([
 ("poly",PolynomialFeatures(degree=degree)),
 ("std_reg",StandardScaler()),
 ("log_reg",LogisticRegression())
 ])
x=np.random.normal(0,1,size=(200,2))
y=np.array(x[:,0]**2+x[:,1]<1.5,dtype="int")
for _ in range(20):
    y[np.random.randint(200)]=1
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=666)
p1=polynomiallogisticregression(degree=2)
p1.fit(x_train,y_train)
print(p1.score(x_train,y_train))
print(p1.score(x_test,y_test))
plot_decision_boundary(p1,axis=[-4,4,-4,4])
plt.scatter(x[y==0,0],x[y==0,1],color="r")
plt.scatter(x[y==1,0],x[y==1,1],color="g")
plt.show()
p1=polynomiallogisticregression(degree=20)  #當其次數變為高次時，其訓練模型已經過擬合
p1.fit(x_train,y_train)
print(p1.score(x_train,y_train))
print(p1.score(x_test,y_test))
plot_decision_boundary(p1,axis=[-4,4,-4,4])
plt.scatter(x[y==0,0],x[y==0,1],color="r")
plt.scatter(x[y==1,0],x[y==1,1],color="g")
plt.show()
#1-3邏輯回歸的正則化形式函數
def Polynomiallogisticregression(degree,C,penalty):  #邏輯回歸的三大超參數
 return Pipeline([
 ("poly",PolynomialFeatures(degree=degree)),
 ("std_reg",StandardScaler()),
 ("log_reg",LogisticRegression(C=C,penalty=penalty))
 ])
p1=Polynomiallogisticregression(degree=20,C=1,penalty="l2")  #當其次數變為高次時，其訓練模型已經過擬合
p1.fit(x_train,y_train)
print(p1.score(x_train,y_train))
print(p1.score(x_test,y_test))
plot_decision_boundary(p1,axis=[-4,4,-4,4])
plt.scatter(x[y==0,0],x[y==0,1],color="r")
plt.scatter(x[y==1,0],x[y==1,1],color="g")
plt.show()

其輸出結果對比如下所示：

  
               注：左為擬合度比較好的決策邊界，右邊為高次的過擬合訓練模型

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sklearn調用多項式回歸 sklearn之多項式回歸機器學習：邏輯回歸（使用多項式特征） Spark 多項式邏輯回歸__多分類機器學習算法之多項式回歸 R語言多項式回歸 Matlab多項式回歸實現多項式回歸學習筆記 Python | 多項式回歸的實現學習：多項式算法----FFT