預測房價：回歸問題

回歸問題預測結果為連續值，而不是離散的類別。

波士頓房價數據集

通過20世紀70年代波士頓郊區房價數據集，預測平均房價；數據集的特征包括犯罪率、稅率等信息。數據集只有506條記錄，划分成404的訓練集和102的測試集。每個記錄的特征取值范圍各不相同。比如，有0~1,1~12以及0~100的等等。

加載數據集

from keras.datasets import boston_housing

(train_data,train_targets),(test_data,test_targets) = boston_housing.load_data()

訓練集形狀：

>>> train_data.shape
(404, 13)

測試集形狀：

>>> test_data.shape
(102, 13)

訓練集404條，測試集102條；每條記錄13個數值特征。
房價單位為1000美元。

>>> train_targets
[ 15.2, 42.3, 50. ...19.4,19.4,29.1]

房價范圍在$10,000到$50,000。

准備數據

因為數據各個特征取值范圍各不相同，不能直接送到神經網絡模型中進行處理。盡管網絡模型能適應數據的多樣性，但是相應的學習過程變得非常困難。一種常見的數據處理方法是特征歸一化normalization---減均值除以標准差；數據0中心化，方差為1.

mean = train_data.mean(axis=0)
train_data -= mean # 減去均值
std = train_data.std(axis=0) # 特征標准差
train_data /= std
test_data -= mean #測試集處理：使用訓練集的均值和標准差；不用重新計算
test_data /= std

模型構建

由於數據集數據量過小，模型也不能太復雜，否則容易發生過擬合。

from keras import models
from keras import layers

def build_model():
	model = models.Sequential()

	model.add(layers.Dense(64, activation='relu',input_shape=(train_data.shape[1],)))
	model.add(layers.Dense(64, activation='relu'))
	model.add(layers.Dense(1))

	model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])

	return model

模型的最后一層只有一個神經元，沒有激活函數--相當於一個線性層。這種處理方法常用在單標量回歸問題中。使用激活函數將會限制輸出結果的范圍，比如使用sigmoid激活函數，輸出結果在0~1之間。這里，因為最后一層只是一個線性層，模型的輸出結果可能是任意值。
模型的損失函數為mse均方誤差。監測的指標為mean absolute error(MAE)平均絕對誤差---兩個結果之間差的絕對值。

K折交叉驗證

當調整模型參數時，為了評估模型，我們通常將數據集分成訓練集和驗證集。但是當數據量過小時，驗證集數目也變得很小，導致驗證集上的評估結果相互之間差異性很大---與訓練集和測試集的划分結果相關。評估結果可信度不高。
最好的評估方式是采用K折交叉驗證--將數據集分成K份(K=4或5)，實例化K個模型，每個模型在K-1份數據上進行訓練，在1份數據上進行評估，最后用K次評估分數的平均值做最后的評估結果。

import numpy as np

k = 4
num_val_samples = len(train_data) // k
num_epochs = 100
all_scores = []
for i in range(k):
	print('processing fold #',i)
	val_data = train_data[i*num_val_samples : (i+1)*num_val_samples] # 划分出驗證集部分
	val_targets = train_targets[i*num_val_samples : (i+1)*num_val_samples]

	partial_train_data = np.concatenate([train_data[:i*num_val_samples],train_data[(i+1)* num_val_samples:] ],axis=0) # 將訓練集拼接到一起
	partial_train_targets = np.concatenate([train_targets[:i*num_val_samples],train_targets[(i+1)* num_val_samples:] ],axis=0)

	model = build_model()
	model.fit(partial_train_data,partial_train_targets,epochs=num_epochs,batch_size=16,verbose=0)#模型訓練silent模型
	val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0) # 驗證集上評估
	all_scores.append(val_mae)

模型訓練

model = build_model()
model.fit(train_data, train_targets,epochs=80, batch_size=16, verbose=0)

test_mse_score, test_mae_score = model.evaluate(test_data, test_targets)# score 2.5532484335057877

小結

回歸問題：損失函數通常為MSE均方誤差；
模型評估監測指標通常為MAE(mean absolute error);
當數據取值范圍不一致時，需要對特征進行預處理；
數據量小時，可以采用Ｋ折驗證來衡量模型；
數據量小時，模型復雜度也應該相應的簡單，可以避免模型過擬合。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Deep learning with Python 學習筆記（1） Python之機器學習-波斯頓房價預測 python 線性回歸（Linear Regression）預測波士頓房價回歸模型與房價預測《DEEP LEARNING》 boston房價預測--大作業一 kaggle預測房價的代碼步驟《用Python玩轉數據》項目—線性回歸分析入門之波士頓房價預測（一） Deep Learning for Computer Vision with Python 第1章：整個內容簡介 Python機器學習筆記：利用Keras進行分類預測