02-08 多項式回歸(波士頓房價預測)

本文轉載自查看原文 2019-10-16 17:07 307

多項式回歸(波士頓房價預測)
一、導入模塊
二、獲取數據
三、訓練模型
- 3.1 報告決定系數
四、可視化

更新、更全的《機器學習》的更新網站，更有python、go、數據結構與算法、爬蟲、人工智能教學等着你： https://www.cnblogs.com/nickchen121/p/11686958.html

多項式回歸(波士頓房價預測)

一、導入模塊

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

二、獲取數據

在《代碼-普通線性回歸》的時候說到特征LSTAT和標記MEDV有最高的相關性，但是它們之間並不是線性關系，因此這次嘗試使用多項式回歸擬合它們之間的關系。

df = pd.read_csv('housing-data.txt', sep='\s+', header=0)
X = df[['LSTAT']].values
y = df['MEDV'].values

三、訓練模型

# 增加二次方，即二項式回歸
quadratic = PolynomialFeatures(degree=2)
# 增加三次方，即三項式回歸
cubic = PolynomialFeatures(degree=3)
# 訓練二項式和三項式回歸得到二次方和三次方的X
X_quad = quadratic.fit_transform(X)
X_cubic = cubic.fit_transform(X)

# 增加x軸坐標點
X_fit = np.arange(X.min(), X.max(), 1)[:, np.newaxis]

lr = LinearRegression()

# 線性回歸
lr.fit(X, y)
lr_predict = lr.predict(X_fit)
# 計算線性回歸的R2值
lr_r2 = r2_score(y, lr.predict(X))

# 二項式回歸
lr = lr.fit(X_quad, y)
quad_predict = lr.predict(quadratic.fit_transform(X_fit))
# 計算二項式回歸的R2值
quadratic_r2 = r2_score(y, lr.predict(X_quad))

# 三項式回歸
lr = lr.fit(X_cubic, y)
cubic_predict = lr.predict(cubic.fit_transform(X_fit))
# 計算三項式回歸的R2值
cubic_r2 = r2_score(y, lr.predict(X_cubic))
print(lr.score(X_cubic, y))
print(cubic_r2)

0.6578476405895719
0.6578476405895719

3.1 報告決定系數

r2_score即報告決定系數\((R^2)\)，可以理解成MSE的標准版，\(R^2\)的公式為

\[R^2 = 1-{\frac {{\frac{1}{n}\sum_{i=1}^n(y^{(i)}-\hat{y^{(i)}})^2}} {{\frac{1}{n}}\sum_{i=1}^n(y^{(i)}-\mu_{(y)})^2} } \]

其中\(\mu_{(y)}\)是\(y\)的平均值，即\({{\frac{1}{n}}\sum_{i=1}^n(y^{(i)}-\mu_{(y)})^2}\)為\(y\)的方差，公式可以寫成

\[R^2 = 1-{\frac{MSE}{Var(y)}} \]

\(R^2\)的取值范圍在\(0-1\)之間，如果\(R^2=1\)，則均方誤差\(MSE=0\)，即模型完美的擬合數據。

四、可視化

plt.scatter(X, y, c='gray', edgecolor='white', marker='s', label='訓練數據')
plt.plot(X_fit, lr_predict, c='r',
         label='線性(d=1),$R^2={:.2f}$'.format(lr_r2), linestyle='--', lw=3)
plt.plot(X_fit, quad_predict, c='g',
         label='平方(d=2),$R^2={:.2f}$'.format(quadratic_r2), linestyle='-', lw=3)
plt.plot(X_fit, cubic_predict, c='b',
         label='立方(d=3),$R^2={:.2f}$'.format(cubic_r2), linestyle=':', lw=3)
plt.xlabel('地位較低人口的百分比[LSTAT]', fontproperties=font)
plt.ylabel('以1000美元為計價單位的房價[RM]', fontproperties=font)
plt.title('波士頓房價預測', fontproperties=font, fontsize=20)
plt.legend(prop=font)
plt.show()

png

上圖可以看出三項式的擬合結果優於二項式和線性回歸的結果，但是在增加模型復雜度的同時，也需要時刻考慮到是否會出現過擬合的問題。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【線性回歸】波士頓房價預測波士頓房價預測基於sklearn的波士頓房價預測_線性回歸學習筆記 python 線性回歸（Linear Regression）預測波士頓房價【機器學習】基於線性回歸的波士頓房價預測用線性回歸簡單預測波士頓房價基於sklearn嶺回歸的波士頓房價預測線性回歸6-波士頓房價預測多元線性回歸—波士頓房價預測（版本一）實驗01 波士頓房價預測