# 一、數據分析步驟
數據分析主要有以下五個步驟:
1、提出問題
2、理解數據
3、數據清洗
4、構建模型
5、數據可視化
# 二、具體步驟
**(一)提出問題**
為了更好了解上海二手房市場,
提出以下幾個問題:
1)上海房價均價如何
2)哪些地區提供房源量較多
3)戶型分布如何
**(二)理解數據**
本次練習選取的數據為上海二手房信息,來源於網上,共9個字段,總計28201條

**(三)數據清洗**
將原始數據保存好后另起一份,防止原始數據丟失。
1)刪除重復值
利用【數據】-【刪除重復項】進行查重,

添加序號列,使其具有唯一性
2)尋找缺失值
Ctrl+g,定位空值,編輯欄填入null,Ctrl+Enter將所有空值填為null
3)格式轉換
為了便於之后的計算,需將總價,單價和面積列用【設置單元格格式】,設置為數值型。
4)異常值尋找
通過【篩選】,查找是否有#VALUE的值存在。無異常值
**(四)構建模型**
以清洗好的數據表為基礎,主要進行數據透視表及數據透視圖分析
根據最初問題提出時的需求,將小區、戶型、面積留下,其他項暫時隱藏,用於其他方面分析。
因面積數據均為個值,為便於分析,進行分組,增加一列戶型大小,並按面積分為小戶型(<=60)、中戶型(60-90)、大戶型(90-120)、超大戶型(>120)。
使用vlookup函數進行處理,新建簡易4行表儲存閾值,分別輸入參數,面積列、閾值列、戶型大小列和模糊查詢,=VLOOKUP(D2,$N$2:$P$5,2,1),結果如下

**(五)數據可視化**
1)均價、房源透視表

2)均價價格柱形圖

3)戶型分布透視表

4)戶型分布餅圖

結論:
1.通過1)可以看出上海均價59486.88028元/平方米,通過2)可以看出,價格基本在均價以下,少數個別地區超過均價。
2.通過1)可以看出,除崇明、金山、靜安,其余地區提供房源都較多。
3.通過4)中戶型房源最多,超大戶型最少

