一.前言
“garbage in garbage out”(簡稱GIGO),是計算機術語常用的俚語,意思是如果你輸入錯誤的數據,那么(計算機)輸出的結果也是錯誤的。這個結論在機器學習領域也成立。多元線性回歸屬於監督機器學習算法,通過已知數據訓練得到模型或決策函數。應用此算法時,不能盲目地套用算法,必須對數據的有效性、正確性、假設合理性進行驗證,如果發現數據本身不正確,理解偏差數據、缺少數據的預處理(數據清洗)、“特征共線性”的檢測方法以及統計學的傳統估計參數。
二.多元線性回歸簡介
社會經濟現象的變化往往受到多個因素的影響,因此,一般要進行多元回歸分析,我們把包括兩個或兩個以上自變量的回歸稱為多元線性回歸 。
多元線性回歸的基本原理和基本計算過程與一元線性回歸相同,但由於自變量個數多,計算相當麻煩,一般在實際中應用時都要借助統計軟件。這里只介紹多元線性回歸的一些基本問題。
多元線性回歸與一元線性回歸類似,可以用最小二乘法估計模型參數,也需對模型及模型參數進行統計檢驗 。
選擇合適的自變量是正確進行多元回歸預測的前提之一,多元回歸模型自變量的選擇可以利用變量之間的相關矩陣來解決。
三.使用excel進行多元線性回歸
1.刪除無效數據,並且將像ABC這種不是數字的指標也是用數字10,20,30來表示。
使用excel打開表發現很多數據都像如下圖所示這種無效數據,通過篩選將其刪除。
使用查找並替換將neighborhood中的ABC替換成102030
將Victorian,ranch,lodge替換成100,200,300
2.使用excel實現線性規划
首先插入這個數據的散點圖,並設置添加趨勢線以及添加公式
再點擊數據->數據分析選擇回歸
以price
作為Y值輸入區間以neighborhood
、area
、bedrooms
、bathrooms
、style
作為X值輸入區間
再勾選輸出顯示區域選擇,勾選殘差
,點擊確定
輸出結果如下圖所示
四.使用python進行多元線性回歸房價預測
1.導入數據包,數據以及對數據進行讀取。
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('D:\\baidu\\house_prices.csv')
df.info();
df.head()
2.對異常值進行處理。
# ================ 異常值檢驗函數:iqr & z分數 兩種方法 =========================
def outlier_test(data, column, method=None, z=2):
""" 以某列為依據,使用 上下截斷點法 檢測異常值(索引) """
"""
full_data: 完整數據
column: full_data 中的指定行,格式 'x' 帶引號
return 可選; outlier: 異常值數據框
upper: 上截斷點; lower: 下截斷點
method:檢驗異常值的方法(可選, 默認的 None 為上下截斷點法),
選 Z 方法時,Z 默認為 2
"""
# ================== 上下截斷點法檢驗異常值 ==============================
if method == None:
print(f'以 {column} 列為依據,使用 上下截斷點法(iqr) 檢測異常值...')
print('=' * 70)
# 四分位點;這里調用函數會存在異常
column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
# 1,3 分位數
(q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
# 計算上下截斷點
upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
# 檢測異常值
outlier = data[(data[column] <= lower) | (data[column] >= upper)]
print(f'第一分位數: {q1}, 第三分位數:{q3}, 四分位極差:{column_iqr}')
print(f"上截斷點:{upper}, 下截斷點:{lower}")
return outlier, upper, lower
# ===================== Z 分數檢驗異常值 ==========================
if method == 'z':
""" 以某列為依據,傳入數據與希望分段的 z 分數點,返回異常值索引與所在數據框 """
"""
params
data: 完整數據
column: 指定的檢測列
z: Z分位數, 默認為2,根據 z分數-正態曲線表,可知取左右兩端的 2%,
根據您 z 分數的正負設置。也可以任意更改,知道任意頂端百分比的數據集合
"""
print(f'以 {column} 列為依據,使用 Z 分數法,z 分位數取 {z} 來檢測異常值...')
print('=' * 70)
# 計算兩個 Z 分數的數值點
mean, std = np.mean(data[column]), np.std(data[column])
upper, lower = (mean + z * std), (mean - z * std)
print(f"取 {z} 個 Z分數:大於 {upper} 或小於 {lower} 的即可被視為異常值。")
print('=' * 70)
# 檢測異常值
outlier = data[(data[column] <= lower) | (data[column] >= upper)]
return outlier, upper, lower
將處理過的數據進行顯示輸出,並將錯誤數據丟棄結果如下圖所示
outlier, upper, lower = outlier_test(data=df, column='price', method='z')
outlier.info(); outlier.sample(5)
df.drop(index=outlier.index, inplace=True)
好現在將數據處理好后來進行數據分析。
1.定義變量。
# 類別變量,又稱為名義變量,nominal variables
nominal_vars = ['neighborhood', 'style']
for each in nominal_vars:
print(each, ':')
print(df[each].agg(['value_counts']).T)
# 直接 .value_counts().T 無法實現下面的效果
## 必須得 agg,而且里面的中括號 [] 也不能少
print('='*35)
# 發現各類別的數量也都還可以,為下面的方差分析做准備
2.對數據進行熱力圖分析。
def heatmap(data, method='pearson', camp='RdYlGn', figsize=(10 ,8)):
"""
data: 整份數據
method:默認為 pearson 系數
camp:默認為:RdYlGn-紅黃藍;YlGnBu-黃綠藍;Blues/Greens 也是不錯的選擇
figsize: 默認為 10,8
"""
## 消除斜對角顏色重復的色塊
# mask = np.zeros_like(df2.corr())
# mask[np.tril_indices_from(mask)] = True
plt.figure(figsize=figsize, dpi= 80)
sns.heatmap(data.corr(method=method), \
xticklabels=data.corr(method=method).columns, \
yticklabels=data.corr(method=method).columns, cmap=camp, \
center=0, annot=True)
# 要想實現只是留下對角線一半的效果,括號內的參數可以加上 mask=mask
heatmap(data=df, figsize=(6,5))
#輸出結果
進行模型分析。
剛才的分析我們發現,style 與 neighborhood 的類別都是三類, 如果只是兩類的話我們可以進行卡方檢驗,所以這里我們使用方差分析。
利用回歸模型中的方差分析,statsmodels 有方差分析庫, 從線性回歸結果中提取方差分析結果。
引入相關的統計學庫。
import statsmodels.api as sm
from statsmodels.formula.api import ols # ols 為建立線性回歸模型的統計學庫
from statsmodels.stats.anova import anova_lm
df = df.copy().sample(600)
# C 表示告訴 Python 這是分類變量,否則 Python 會當成連續變量使用
## 這里直接使用方差分析對所有分類變量進行檢驗
## 下面幾行代碼便是使用統計學庫進行方差分析的標准姿勢
lm = ols('price ~ C(neighborhood) + C(style)', data=df).fit()
anova_lm(lm)
# Residual 行表示模型不能解釋的組內的,其他的是能解釋的組間的
# df: 自由度(n-1)- 分類變量中的類別個數減1
# sum_sq: 總平方和(SSM),residual行的 sum_eq: SSE
# mean_sq: msm, residual行的 mean_sq: mse
# F:F 統計量,查看卡方分布表即可
# PR(>F): P 值
# 反復刷新幾次,發現都很顯著,所以這兩個變量也挺值得放入模型中
進行多元線性回歸建模
from statsmodels.formula.api import ols
lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
lm.summary()
在這里我們發現精度還不夠高,這里通過添加虛擬變量與使用方差膨脹因子檢測多元共線性的方式來提升模型精度
1,設置虛擬變量。
# 設置虛擬變量
# 以名義變量 neighborhood 街區為例
nominal_data = df['neighborhood']
# 設置虛擬變量
dummies = pd.get_dummies(nominal_data)
dummies.sample() # pandas 會自動幫你命名
# 每個名義變量生成的虛擬變量中,需要各丟棄一個,這里以丟棄C為例
dummies.drop(columns=['C'], inplace=True)
dummies.sample()
2.將結果與原數據集拼接
# 將結果與原數據集拼接
results = pd.concat(objs=[df, dummies], axis='columns') # 按照列來合並
results.sample(3)
# 對名義變量 style 的處理可自行嘗試
# 再次建模
lm = ols('price ~ area + bedrooms + bathrooms + A + B', data=results).fit()
lm.summary()
通過自定義方差膨脹因子優化。
def vif(df, col_i):
"""
df: 整份數據
col_i:被檢測的列名
"""
cols = list(df.columns)
cols.remove(col_i)
cols_noti = cols
formula = col_i + '~' + '+'.join(cols_noti)
r2 = ols(formula, df).fit().rsquared
return 1. / (1. - r2)
test_data = results[['area', 'bedrooms', 'bathrooms', 'A', 'B']]
for i in test_data.columns:
print(i, '\t', vif(df=test_data, col_i=i))
# 發現 bedrooms 和 bathrooms 存在強相關性,可能這兩個變量是解釋同一個問題
再次進行擬合。
lm = ols(formula='price ~ area + bathrooms + A + B', data=results).fit()
lm.summary()
# 再次進行多元共線性檢測
test_data = df[['area', 'bathrooms']]
for i in test_data.columns:
print(i, '\t', vif(df=test_data, col_i=i))
五.使用sklearn庫實現多元線性回歸
1.導入包和數據
import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt # 畫圖
from sklearn import linear_model # 線性模型
data = pd.read_csv('D:\baidu\house_prices.csv') #讀取數據
data.head() #數據展示
2.去除第一列house_id
new_data=data.iloc[:,1:] #除掉id這一列
new_data.head()
3.關系數據矩陣顯示
new_data.corr() # 相關系數矩陣,只統計數值列
4.賦值變量
x_data = new_data.iloc[:, 0:5] #area、bedrooms、bathroom對應列
y_data = new_data.iloc[:, -1] #price對應列
print(x_data, y_data, len(x_data))
5.使用庫中模型並輸出結果
# 應用模型
model = linear_model.LinearRegression()
model.fit(x_data, y_data)
print("回歸系數:", model.coef_)
print("截距:", model.intercept_)
print('回歸方程: price=',model.coef_[0],'*neiborhood+',model.coef_[1],'*area +',model.coef_[2],'*bedrooms +',model.coef_[3],'*bathromms +',model.coef_[4],'*sytle ',model.intercept_)
6.對數據清洗后在進行線性回歸
# ================ 異常值檢驗函數:iqr & z分數 兩種方法 =========================
def outlier_test(data, column, method=None, z=2):
""" 以某列為依據,使用 上下截斷點法 檢測異常值(索引) """
"""
full_data: 完整數據
column: full_data 中的指定行,格式 'x' 帶引號
return 可選; outlier: 異常值數據框
upper: 上截斷點; lower: 下截斷點
method:檢驗異常值的方法(可選, 默認的 None 為上下截斷點法),
選 Z 方法時,Z 默認為 2
"""
# ================== 上下截斷點法檢驗異常值 ==============================
if method == None:
print(f'以 {column} 列為依據,使用 上下截斷點法(iqr) 檢測異常值...')
print('=' * 70)
# 四分位點;這里調用函數會存在異常
column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)
# 1,3 分位數
(q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)
# 計算上下截斷點
upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)
# 檢測異常值
outlier = data[(data[column] <= lower) | (data[column] >= upper)]
print(f'第一分位數: {q1}, 第三分位數:{q3}, 四分位極差:{column_iqr}')
print(f"上截斷點:{upper}, 下截斷點:{lower}")
return outlier, upper, lower
# ===================== Z 分數檢驗異常值 ==========================
if method == 'z':
""" 以某列為依據,傳入數據與希望分段的 z 分數點,返回異常值索引與所在數據框 """
"""
params
data: 完整數據
column: 指定的檢測列
z: Z分位數, 默認為2,根據 z分數-正態曲線表,可知取左右兩端的 2%,
根據您 z 分數的正負設置。也可以任意更改,知道任意頂端百分比的數據集合
"""
print(f'以 {column} 列為依據,使用 Z 分數法,z 分位數取 {z} 來檢測異常值...')
print('=' * 70)
# 計算兩個 Z 分數的數值點
mean, std = np.mean(data[column]), np.std(data[column])
upper, lower = (mean + z * std), (mean - z * std)
print(f"取 {z} 個 Z分數:大於 {upper} 或小於 {lower} 的即可被視為異常值。")
print('=' * 70)
# 檢測異常值
outlier = data[(data[column] <= lower) | (data[column] >= upper)]
return outlier, upper, lower
price 列為依據,使用 Z 分數法,z 分位數取 2 來檢測異常值
outlier, upper, lower = outlier_test(data=new_data_IQR, column='price')
outlier.info(); outlier.sample(6)
# 這里簡單的丟棄即可
new_data_IQR.drop(index=outlier.index, inplace=True)
price 列為依據,使用 上下截斷點法(iqr) 檢測異常值
outlier, upper, lower = outlier_test(data=new_data_IQR, column='price')
outlier.info(); outlier.sample(6)
# 這里簡單的丟棄即可
new_data_IQR.drop(index=outlier.index, inplace=True)
六.總結
本次實驗學習鞏固了多元回歸模型的相關概念,熟悉了構建模型的基本步驟。學會了如何用Excel表構建多元回歸模型,,唯一不同的點就是X值區間的選擇,由一元線性回歸的單個變量變為多個。更加熟悉使用sklearn庫調用函數的方法,了解了一些處理數據的基本方法,包括處理缺省值和非數值數據的處理方法等。