機器學習:波士頓房價數據集


波士頓房價數據集(Boston House Price Dataset)(下載地址:http://t.cn/RfHTAgY

使用sklearn.datasets.load_boston即可加載相關數據。該數據集是一個回歸問題。每個類的觀察值數量是均等的,共有 506 個觀察,13 個輸入變量和1個輸出變量。

每條數據包含房屋以及房屋周圍的詳細信息。其中包含城鎮犯罪率,一氧化氮濃度,住宅平均房間數,到中心區域的加權距離以及自住房平均房價等等。

CRIM:城鎮人均犯罪率。

ZN:住宅用地超過 25000 sq.ft. 的比例。

INDUS:城鎮非零售商用土地的比例。

CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。

NOX:一氧化氮濃度。

RM:住宅平均房間數。

AGE:1940 年之前建成的自用房屋比例。

DIS:到波士頓五個中心區域的加權距離。

RAD:輻射性公路的接近指數。

TAX:每 10000 美元的全值財產稅率。

PTRATIO:城鎮師生比例。

B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮中黑人的比例。

LSTAT:人口中地位低下者的比例。

MEDV:自住房的平均房價,以千美元計。

預測平均值的基准性能的均方根誤差(RMSE)是約 9.21 千美元。

 

重要參數

* return_X_y:表示是否返回target(即價格),默認為False,只返回data(即屬性)。

加載示例

1.

>>> from sklearn.datasets import load_boston

>>> boston = load_boston()

>>> print(boston.data.shape)

(506L, 13L)

2.

>>> from sklearn.datasets import load_boston

>>> data,target = load_boston(return_X_y = True)

>>> print(data.shape)

(506L, 13L)

>>> print(target.shape)

(506L,)

 

(未完待續)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM