波士頓房價數據集(Boston House Price Dataset)(下載地址:http://t.cn/RfHTAgY)
使用sklearn.datasets.load_boston即可加載相關數據。該數據集是一個回歸問題。每個類的觀察值數量是均等的,共有 506 個觀察,13 個輸入變量和1個輸出變量。
每條數據包含房屋以及房屋周圍的詳細信息。其中包含城鎮犯罪率,一氧化氮濃度,住宅平均房間數,到中心區域的加權距離以及自住房平均房價等等。
CRIM:城鎮人均犯罪率。
ZN:住宅用地超過 25000 sq.ft. 的比例。
INDUS:城鎮非零售商用土地的比例。
CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。
NOX:一氧化氮濃度。
RM:住宅平均房間數。
AGE:1940 年之前建成的自用房屋比例。
DIS:到波士頓五個中心區域的加權距離。
RAD:輻射性公路的接近指數。
TAX:每 10000 美元的全值財產稅率。
PTRATIO:城鎮師生比例。
B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮中黑人的比例。
LSTAT:人口中地位低下者的比例。
MEDV:自住房的平均房價,以千美元計。
預測平均值的基准性能的均方根誤差(RMSE)是約 9.21 千美元。
重要參數
* return_X_y:表示是否返回target(即價格),默認為False,只返回data(即屬性)。
加載示例
1.
>>> from sklearn.datasets import load_boston
>>> boston = load_boston()
>>> print(boston.data.shape)
(506L, 13L)
2.
>>> from sklearn.datasets import load_boston
>>> data,target = load_boston(return_X_y = True)
>>> print(data.shape)
(506L, 13L)
>>> print(target.shape)
(506L,)
(未完待續)