基於線性回歸分析——boston房價預測

本文轉載自查看原文 2019-11-27 22:46 1197 Data Analysis

本文采用正規方程、梯度下降、帶有正則化的嶺回歸三種方法對BOSTON房價數據集進行分析預測，比較三種方法之間的差異

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression, SGDRegressor,  Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.externals import joblib
import pandas as pd
import numpy as np

class HousePredict():
    """
    波士頓房子數據集價格預測
    """
    
    def __init__(self):
        
        # 1.獲取數據
        lb = load_boston()

        # 2.分割數據集到訓練集和測試集
        x_train, x_test, y_train, y_test = train_test_split(lb.data, lb.target, test_size=0.25)
        # print(y_train, y_test)

        # 3.特征值和目標值是都必須進行標准化處理, 實例化兩個標准化API
        # 3.1特征值標准化
        self.std_x = StandardScaler()

        self.x_train = self.std_x.fit_transform(x_train)
        self.x_test = self.std_x.transform(x_test)


        # 3.2目標值標准化
        self.std_y = StandardScaler()

        self.y_train = self.std_y.fit_transform(y_train.reshape(-1, 1))  # 二維
        self.y_test = self.std_y.transform(y_test.reshape(-1, 1))


    def mylinear(self):
        """
        正規方程求解方式預測
        :return: None
        """
        
        # 預測房價結果，直接載入之前保存的模型
    #     model = joblib.load("./tmp/test.pkl")

    #     y_predict = self.std_y.inverse_transform(model.predict(self.x_test))

    #     print("保存的模型預測的結果：", y_predict)

    #     estimator預測
    #     正規方程求解方式預測結果
        lr = LinearRegression() 
        lr.fit(self.x_train, self.y_train)

        print("正規方程求解方式回歸系數", lr.coef_)

        # 保存訓練好的模型
        # joblib.dump(lr, "./tmp/test.pkl")

        # # 預測測試集的房子價格
        y_lr_predict = self.std_y.inverse_transform(lr.predict(self.x_test))
        #
        # print("正規方程測試集里面每個房子的預測價格：", y_lr_predict)
        print("正規方程的均方誤差：", mean_squared_error(self.std_y.inverse_transform(self.y_test), y_lr_predict))
        
        return None
    
    def mysdg(self):
        """
        梯度下降去進行房價預測
        :return: None
        """
        sgd = SGDRegressor()
        sgd.fit(self.x_train, self.y_train)

        print("梯度下降得出的回歸系數", sgd.coef_)

        # 預測測試集的房子價格
        y_sgd_predict = self.std_y.inverse_transform(sgd.predict(self.x_test))

        # print("梯度下降測試集里面每個房子的預測價格：", y_sgd_predict)
        print("梯度下降的均方誤差：", mean_squared_error(self.std_y.inverse_transform(self.y_test), y_sgd_predict))

        return None
    
    
    def myridge(self):
        """
        帶有正則化的嶺回歸去進行房價預測
        """
        rd = Ridge(alpha=1.0)
        rd.fit(self.x_train, self.y_train)
        
        print("嶺回歸回歸系數", rd.coef_)
        
        # 預測測試集的房子價格
        y_rd_predict = self.std_y.inverse_transform(rd.predict(self.x_test))
        
        # print("嶺回歸每個房子的預測價格：", y_rd_predict)
        print("嶺回歸均方誤差：", mean_squared_error(self.std_y.inverse_transform(self.y_test), y_rd_predict))
        
        return None

if __name__ == "__main__":
    A = HousePredict()
    A.mylinear()
    A.mysdg()
    A.myridge()

正規方程求解方式回歸系數 [[-0.10843933  0.13470414  0.00828142  0.08736748 -0.2274728   0.25791114
   0.0185931  -0.33169482  0.27340519 -0.22995446 -0.20995577  0.08854303
  -0.40967023]]

正規方程的均方誤差： 20.334736834357248
梯度下降得出的回歸系數 [-0.08498404  0.07094101 -0.03414044  0.11407245 -0.09152116  0.3256401
 -0.0071226  -0.2071317   0.07391015 -0.06095605 -0.17955743  0.08442426
 -0.35757617]

梯度下降的均方誤差： 21.558873305580214
嶺回歸回歸系數 [[-0.10727714  0.13281388  0.00561734  0.0878943  -0.22348981  0.25929669
   0.0174662  -0.32810805  0.26380776 -0.22163145 -0.20871114  0.08831287
  -0.4076144 ]]

嶺回歸均方誤差： 20.37300555358197

過擬合：一個假設在訓練數據上能夠獲得比其他假設更好的擬合，但是在訓練數據外的數據集上卻不能很好地擬合數據，此時認為這個假設出現了過擬合的現象。(模型過於復雜)

原因：原始特征過多，存在一些嘈雜特征，模型過於復雜是因為模型嘗試去兼顧各個測試數據點
解決辦法：
- 1.進行特征選擇，消除關聯性大的特征(很難做)
- 2.交叉驗證(讓所有數據都有過訓練)
- 3.L2正則化
  - 作用：可以使得W的每個元素都很小，都接近於0（降權重，盡量減小高次項特征的影響）
  - 優點：越小的參數說明模型越簡單，越簡單的模型則越不容易產生過擬合現象

欠擬合：一個假設在訓練數據上不能獲得更好的擬合，但是在訓練數據外的數據集上也不能很好地擬合數據，此時認為這個假設出現了欠擬合的現象。(模型過於簡單)

原因：學習到數據的特征過少
解決辦法：增加數據的特征數量

1、LinearRegression與SGDRegressor評估

2、特點：線性回歸器是最為簡單、易用的回歸模型。

從某種程度上限制了使用，盡管如此，在不知道特征之間關系的前提下，我們仍然使用線性回歸器作為大多數系統的首要選擇。

小規模數據：LinearRegression(不能解決擬合問題)以及其它

大規模數據：SGDRegressor

線性回歸 LinearRegression與Ridge對比

嶺回歸：回歸得到的回歸系數更符合實際，更可靠。另外，能讓估計參數的波動范圍變小，變的更穩定。在存在病態數據偏多的研究中有較大的實用價值

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 線性回歸房價預測 boston房價預測--大作業一【線性回歸】波士頓房價預測 Tensorflow 線性回歸預測房價實例《用Python玩轉數據》項目—線性回歸分析入門之波士頓房價預測（一）《用Python玩轉數據》項目—線性回歸分析入門之波士頓房價預測（二）線性回歸分析波士頓房價線性回歸-PyTorch-Kaggle房價預測問題基於sklearn的波士頓房價預測_線性回歸學習筆記 python 線性回歸（Linear Regression）預測波士頓房價