繼續上一篇的工作繼續分析廣州鏈家二手房的數據。
>> Normality Test
用nortest package 的 ad.test() 分別對三個主要因素(面積,總價和均價)進行正態分布檢驗,結果顯示這三個變量都不滿足正態分布,而 Q-Q Plot 的表現方式就更直觀了:
房子的面積
ad.test(house$area) #p-value < 2.2e-16 reject normality
qqnorm(house$area)
qqline(house$area, col = 2, lwd=2)
房子的總價
ad.test(house$total_price) #p-value < 2.2e-16 reject normality
qqnorm(house$total_price)
qqline(house$total_price, col = 2, lwd=2)
房子的單價
ad.test(house$unit_price) #p-value < 2.2e-16 reject normality
qqnorm(house$unit_price)
qqline(house$unit_price, col = 2, lwd=2)
因為房子的面積,總價和單價這三個變量均不滿足正態分布,所以就不能對這三個變量進行 ANOVA 和線性回歸等分析了。
>> Cluster Analysis
接下來我們可以將可知的房源划分歸類。房子分類后對於賣家和中介而言就可以更精准地找到目標的客戶群體,對於買家而言也可以避免花更多的時間去了解不合適的房子從而加快交易速度(畢竟房子總是蹭蹭蹭地往上漲不給人思考的時間~)我會用簡單方便的 K-Mean 算法對房子實現分類的工作。
在開始聚類分析之前心里要大概有個數,到底這些房子應該分為幾類才合適?聚類的原則就是組內的差距要小而組間的差距要大。我只選擇面積和單價這兩個最為重要的變量進行分析,並計算了不同分組的情況下的組內離差平方和:
tot.wssplot <- function(data, nc, seed=1){
tot.wss <- (nrow(data)-1)*sum(apply(data,2,var))
for (i in 2:nc){
set.seed(seed)
tot.wss[i] <- kmeans(data, centers=i, iter.max = 500)$tot.withinss
}
plot1 <- ggplot(data=data.frame(1:nc,tot.wss), aes(x=1:nc, y=tot.wss, group=1)) +
geom_line(color="#007CFF", linetype="solid", size=1.0)+
geom_point(color="#FF6666")+
scale_x_continuous(limits=c(0, 10),breaks = seq(0,10,2))+
scale_y_continuous(limits=c(10000, 45000),breaks = seq(10000, 45000,5000))+
xlab('Number of Cluster')+
ylab('Within groups sum of squares')
}
temp <- data.frame(scale(house[,c("area", "unit_price")]))
plot2 <- tot.wssplot(temp, nc = 10)
print(plot2)
由上圖的計算結果,我選擇了將房子分為5類, 結果還不錯。
set.seed(1)
group <- kmeans(x = temp, centers = 5, iter.max = 500)
print(group)
#K-means clustering with 5 clusters of sizes 7336, 3448, 16948, 19842, 3906
#(between_SS / total_SS = 74.7 %)
#### >> Interpreting Results
將分類的結果作為數據的一個新變量 house$group ,然后分組計算各組的房子的面積,總價和單價。
Group | Area | Total Price | Unit Price | Count |
---|---|---|---|---|
1 | 74.86566 | 154.5091 | 20766.57 | 7336 |
2 | 86.89919 | 595.8457 | 67492.40 | 3448 |
3 | 79.08328 | 310.8258 | 39814.88 | 16948 |
4 | 58.04336 | 179.4360 | 31160.86 | 19842 |
5 | 142.63028 | 460.6121 | 30534.02 | 3906 |
另外,第一組的房子集中的區域為市橋,新塘南,橋南等地;第二組的房子集中在東山口,淘金,天河公園等地;第三組的房子集中在京溪,昌崗,金碧等;第四組的房子集中在江燕路,西關,大石,祈福新村等;第五組的房子集中在麓景,荔城等。
綜合上述的信息,我認為可以將廣州的二手房大致分為以下5類:
- **上車盤型 ** :這組的房子大多位於市郊而且面積適中,價格較低。對於資金不夠充裕的買家來說也是一個能夠得着的選擇。
- **區域中心型(好地段) ** :這組的房子大多位於廣州市的黃金地段(或是交通或是學位等因素),均價是遠遠超過廣州二手房均價的,而且物以稀為貴在房子上也能驗證。這組的房子數量並不多。
- **剛需型 ** : 這組的房子大多位於廣州市內,雖然不算很好的地段,但是至少交通配套等設施會比市郊的房子要好。面積適中,價格適中,房源充足。
- **“老破小”型 ** :這組的房子面積偏小,但是其集中所處的區域多處於江燕路和西關等老城區,所以其價格也不會很便宜,因為把這組的房子定義為“老破小”型。打引號的原因是這組內的房子不一定一一滿足即老又小又破的特征,但是由數據推測該組的大多數房子會滿足老破小其一的特征。
- 大戶型 : 這組的房子面積較大,很容易就知道是包括別墅,復式等大戶型的房子了。
通過繪制房子分組與房子建築年代的圖形,可以確定第4組就是老房子居多了,基本80s的房子都屬於第4組的房子。
繪制房子分組與房子是否近地鐵的圖形,可以確定第2組是大部分是近地鐵(代表交通發達)的好位置的房子,而第1組則符合預期猜測多為市郊的房子遠離地鐵。
最后,說了那么多,買房子就還是看看銀行卡的余額……
相關文章: