本文采用正規方程、梯度下降、帶有正則化的嶺回歸三種方法對BOSTON房價數據集進行分析預測,比較三種方法之間的差異
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.externals import joblib
import pandas as pd
import numpy as np
class HousePredict():
"""
波士頓房子數據集價格預測
"""
def __init__(self):
# 1.獲取數據
lb = load_boston()
# 2.分割數據集到訓練集和測試集
x_train, x_test, y_train, y_test = train_test_split(lb.data, lb.target, test_size=0.25)
# print(y_train, y_test)
# 3.特征值和目標值是都必須進行標准化處理, 實例化兩個標准化API
# 3.1特征值標准化
self.std_x = StandardScaler()
self.x_train = self.std_x.fit_transform(x_train)
self.x_test = self.std_x.transform(x_test)
# 3.2目標值標准化
self.std_y = StandardScaler()
self.y_train = self.std_y.fit_transform(y_train.reshape(-1, 1)) # 二維
self.y_test = self.std_y.transform(y_test.reshape(-1, 1))
def mylinear(self):
"""
正規方程求解方式預測
:return: None
"""
# 預測房價結果,直接載入之前保存的模型
# model = joblib.load("./tmp/test.pkl")
# y_predict = self.std_y.inverse_transform(model.predict(self.x_test))
# print("保存的模型預測的結果:", y_predict)
# estimator預測
# 正規方程求解方式預測結果
lr = LinearRegression()
lr.fit(self.x_train, self.y_train)
print("正規方程求解方式回歸系數", lr.coef_)
# 保存訓練好的模型
# joblib.dump(lr, "./tmp/test.pkl")
# # 預測測試集的房子價格
y_lr_predict = self.std_y.inverse_transform(lr.predict(self.x_test))
#
# print("正規方程測試集里面每個房子的預測價格:", y_lr_predict)
print("正規方程的均方誤差:", mean_squared_error(self.std_y.inverse_transform(self.y_test), y_lr_predict))
return None
def mysdg(self):
"""
梯度下降去進行房價預測
:return: None
"""
sgd = SGDRegressor()
sgd.fit(self.x_train, self.y_train)
print("梯度下降得出的回歸系數", sgd.coef_)
# 預測測試集的房子價格
y_sgd_predict = self.std_y.inverse_transform(sgd.predict(self.x_test))
# print("梯度下降測試集里面每個房子的預測價格:", y_sgd_predict)
print("梯度下降的均方誤差:", mean_squared_error(self.std_y.inverse_transform(self.y_test), y_sgd_predict))
return None
def myridge(self):
"""
帶有正則化的嶺回歸去進行房價預測
"""
rd = Ridge(alpha=1.0)
rd.fit(self.x_train, self.y_train)
print("嶺回歸回歸系數", rd.coef_)
# 預測測試集的房子價格
y_rd_predict = self.std_y.inverse_transform(rd.predict(self.x_test))
# print("嶺回歸每個房子的預測價格:", y_rd_predict)
print("嶺回歸均方誤差:", mean_squared_error(self.std_y.inverse_transform(self.y_test), y_rd_predict))
return None
if __name__ == "__main__":
A = HousePredict()
A.mylinear()
A.mysdg()
A.myridge()
正規方程求解方式回歸系數 [[-0.10843933 0.13470414 0.00828142 0.08736748 -0.2274728 0.25791114
0.0185931 -0.33169482 0.27340519 -0.22995446 -0.20995577 0.08854303
-0.40967023]]
正規方程的均方誤差: 20.334736834357248
梯度下降得出的回歸系數 [-0.08498404 0.07094101 -0.03414044 0.11407245 -0.09152116 0.3256401
-0.0071226 -0.2071317 0.07391015 -0.06095605 -0.17955743 0.08442426
-0.35757617]
梯度下降的均方誤差: 21.558873305580214
嶺回歸回歸系數 [[-0.10727714 0.13281388 0.00561734 0.0878943 -0.22348981 0.25929669
0.0174662 -0.32810805 0.26380776 -0.22163145 -0.20871114 0.08831287
-0.4076144 ]]
嶺回歸均方誤差: 20.37300555358197
過擬合:一個假設在訓練數據上能夠獲得比其他假設更好的擬合, 但是在訓練數據外的數據集上卻不能很好地擬合數據,此時認為這個假設出現了過擬合的現象。(模型過於復雜)
-
原因:原始特征過多,存在一些嘈雜特征,模型過於復雜是因為模型嘗試去兼顧各個測試數據點
-
解決辦法:
- 1.進行特征選擇,消除關聯性大的特征(很難做)
- 2.交叉驗證(讓所有數據都有過訓練)
- 3.L2正則化
- 作用:可以使得W的每個元素都很小,都接近於0(降權重,盡量減小高次項特征的影響)
- 優點:越小的參數說明模型越簡單,越簡單的模型則越不容易產生過擬合現象
欠擬合:一個假設在訓練數據上不能獲得更好的擬合, 但是在訓練數據外的數據集上也不能很好地擬合數據,此時認為這個假設出現了欠擬合的現象。(模型過於簡單)
- 原因:學習到數據的特征過少
- 解決辦法:增加數據的特征數量
1、LinearRegression與SGDRegressor評估
2、特點:線性回歸器是最為簡單、易用的回歸模型。
從某種程度上限制了使用,盡管如此,在不知道特征之間關系的前提下,我們仍然使用線性回歸器作為大多數系統的首要選擇。
小規模數據:LinearRegression(不能解決擬合問題)以及其它
大規模數據:SGDRegressor
線性回歸 LinearRegression與Ridge對比
嶺回歸:回歸得到的回歸系數更符合實際,更可靠。另外,能讓估計參數的波動范圍變小,變的更穩定。在存在病態數據偏多的研究中有較大的實用價值