光棍節之夜,用數據分析幫女神學姐選婚房


(本文成文於2015年11月12日,為作者原創,發布在博客園方便諸君閱讀)

前段時間發了一篇分析房價的文章,於是這兩天在微信上咨詢我的朋友絡繹不絕。今天是光棍節,我什么都沒搶到。下午,有一位學姐在微信上找我,懷着激動的心情打開微信。

學姐說,“看到你之前發的文章了,能不能幫我在北京選一套婚房啊?”

學姐求我,焉有不應。於是,我們約了今天晚上在北郵校園的零一咖啡廳見面。學姐是我們實驗室比我大兩級的女神,追求者眾,據說要找男朋友只找BAT三家的高富帥,聽說后來找了個360的男朋友。畢業兩年,就准備買婚房了,太令人羡慕了。看看我能不能幫忙吧!

坐在咖啡廳,我重新運行了數據采集程序,抓取光棍節當天所有的二手房數據,這個過程要花15分鍾。趁着這個時候,我開始詢問學姐對婚房具體需求。

學姐說,她希望能找面積在70平以上,130平以下的比較新的房子。至於預算,現在兩家人拿出了180萬的首付,我當時就震驚了。我幫她算了一下,她男友的工資一個月兩萬,按照貸款三十年,每個月還款不超過收入的51%計算,總共能貸大概140萬。因此,預算在320萬左右。

正好15分鍾過去,數據采完了,總共10W套左右,基本上包括了絕大多數北京二手房。大概是下面這個樣子(省略了一部分信息):

image

可選數量:10W套

我按照學姐的要求,選擇了70到130平,價格在350萬以下的所有房子,總共3W套。看來可選擇的還挺多的啊。平均面積93平,單價2.34萬。

按面積和價格篩選:30498套

她突然又說,不喜歡太老的房子。

確實如此,房子不能太老,否則水暖電和房子的質量都會比較差,以后也很難出手。於是,我用正則表達式,從每個房子的全部信息里,抽取房子的年份,並選擇1997年以后的房子。97年以后,大戶型開始多了起來。看了看,還有2.5萬套左右。

選擇1997年之后:2.5W套

學姐又說,她不想上班太遠,位置也不想太偏。

我心想,恩,要離老公近一點,可是,怎么定義不遠呢?我打開了地圖,告訴她,你來選一個區域范圍吧!

學姐用纖纖手指,在屏幕上畫了一個框,我仔細看了一下,大概是這個樣子:

image

這個區域,西至玉泉路,東到東五環,南到長安街,北到立水橋。我覺得很有意思,問學姐,長安街以南有好多單價較低的東西城區的房子,為什么不考慮呢?

她說,“男朋友在北邊,這樣上班方便。再說,寧要北邊一張床,不要南邊一間房,所以當然要買長安街以北的房子啦!”

她選的其實還挺有道理,北邊過了立水橋,就是昌平的天通苑了,連我都聽說過天通苑國的傳言,每天出入境極其困難,她男朋友怎么舍得讓她早高峰在天通苑地鐵站擠地鐵呢,那個情景,大概是下面這個樣子(男默女淚)。

image

我分析了一下坐標,這個矩形范圍大約在東經116.25到116.53度,北緯39.91到40.059度之間。一個表達式跑下來,總共只剩下2400套左右的房子了。

選定地圖區域:2400套

按照不同區域進行划分,就能看到下面的柱狀圖:

image

看來基本上只能在朝陽,海淀,燕郊三個地方買房子了。學姐不會考慮燕郊。她說,居然還有西城區的房子!

我也深感奇怪,1998年后,居然還有單價在5W以內的西城區的房子?看了一下,西城有18套,東城有17套。

如果能買到西城的房子,學姐真是賺大了!於是我趕緊檢索那些西城的房子出來:

image

單價才三萬八!這怎么可能,隨便找了兩個仔細一看,原來一個是地下室,另外一個是商住兩用的房子。

學姐問我,什么是商住兩用?我告訴她,所謂商住兩用就是商水商電,小產權,不能落戶口。

學姐說,堅決不要地下室,而且一定能落戶口。

這個也難不倒我,中介當然不會傻到在標題上標注地下室和商住兩用。但通常商住兩用,會標明“不限購”,各種“大廈”,“中心”,“投資”的,肯定都是無法落戶的,用關鍵字篩掉它們!

keywords = re.compile(u'商|地下|限購|大廈|中心|投資');

學姐眉頭一皺,“忘了告訴你了,我要兩室或者三室的房子,一定要帶客廳”。我想了幾秒鍾,看來還得正則表達式出馬:

housetype = re.compile(u'(2|3)室(1|2)廳');

這樣,西城東城的房子徹底干掉了,一套都沒有。我告訴學姐,你現在只能選擇朝陽和海淀的房子了。此時,可選的房子數量共計1000套左右,只占總數的不到1%。

不要小產權,商住兩用和地下室,兩室/三室帶客廳:1000套

接下來按照區域選房子。我們按照區域排序分組並求數量,得到了下面這張表:

image

學姐問道,這么多商圈,很多地方聽都沒聽過,怎么選?我把數據導出成文件,導入到基於百度地圖的可視化工具工具里,匯出了這樣的一張圖,每個地方有多少套房子,一目了然。按照大區來划分,可選項主要集中在北苑,清河,望京和十里堡附近。

image

學姐想了想,說,男朋友所在的科技公司在東邊,我在中關村上班,所以北苑應該是個不錯的選擇,正好是兩個人的上班的中點,酒仙橋地鐵並不方便,所以暫時先不考慮。

啊,學姐好贊! 現在應該比較明確了。

我們來重點考察一下北苑,按照小區來划分(PID是數量,year為小區平均年份,單價為平均單價)

image

我們將地圖縮放到北苑,每個小區有多少套合適的房子,便可一目了然。

image

學姐說,這價格差別還是挺大的,從2.7W到3.9W都有。為什么區別這么大呢?

我說,這可能和房子年份有關,越新的小區,房子肯定會越貴,為了證明我的猜測,我做了如下的線性回歸曲線:

image

經過計算,皮爾遜相關系數在0.63左右,可見,對於比較新的非學區房來說,建造年份和價格強相關。

為什么天怡家園和茉藜園只有一條秋實街相隔,二手房可選擇性(天怡家園6套,茉藜園51套)卻差別這么大呢?仔細對比了兩個小區的基本信息,可能原因有兩個,茉藜園(3559戶)比天怡家園(690戶)的規模大了很多,而且天怡家園是部委聯合建房,所以相對來說多一些。整體交易活躍度不高。

選擇具有性價比的房子

學姐說,現在硬性條件都滿足了,怎么來選擇最有性價比的房子呢?

先說價格,學姐突然問我,成交價就是中介網上標明的價格嗎? 我偷笑了一下,心想,“看來學姐是完全不懂啊”。中介當然要收中介費的啊,某著名中介一般是成交價的2.7%。下面是商品普通住宅的額外支出情況:

image

我接着說道,這是普通商品房的稅率,如果是經濟適用房,需要交納10%的綜合地價款,如果是公房,還需要交納土地出讓金…

學姐打斷我,這個太復雜了!

確實啊,這些政策足夠寫好幾張紙,我自己也不是很清楚。我們先考慮那個表里的情況吧。

修正實際交易價格

 

其實仔細觀察中介的標簽就能發現,如果是滿五年唯一或滿兩年唯一,一定會標上。如果不唯一,就什么都不標。從這些特征,能夠計算出每套房子的實際成交額,這個步驟可能會出錯,。

我回答,這看你怎么定義性價比了。基本上,一分價錢一分貨,能從下面幾個角度來考慮:

  • 戶型:僅次於位置的最重要因素
  • 采光:即使做不到明廚明衛,也最少做到明室明廳。
  • 學區:旁邊是否有不算太差的幼兒園和小學
  • 升值空間:房子未來是否好出手。

學姐問,90多套房子,這個讓我怎么選啊,能讓機器幫我選擇一下嗎?

這可讓我犯了難,戶型圖都可以查到,但讓程序去做自動識別,並計算采光,這實在是太難了,只能讓學姐自己來選了。

采光也沒法自動識別,但能通過中介給出的評論中提取關鍵詞,繪制詞圖,提高篩房效率。

學區和升值空間相對比較容易,把北苑所有的學校,幼兒園,以及未來地鐵的建設情況繪制出來,即可作為直接的參考。

image

即使在2020年,北苑的地鐵線路依舊不夠發達,只增加了勇士營一站。勇士營站的位置,靠近來春園和北京青年城,可以認為未來有較好的升值空間。

繪制北苑所有的幼兒園

以學姐的情況,估計以后還會換學區房,我們姑且將附近的幼兒園繪制出來:

image

(時間所限,筆者沒有標注每個幼兒園的情況,之后有專門的學區房專題進行分析)

提取中介點評關鍵字,做成詞雲,方便觀察

由於中介對每套房子的評價內容特別多,因此一條一條觀察會非常浪費時間。我不得不動用自然語言處理技術,對剩余的90多套房子,提取點評關鍵詞。

由於中介對每套房子的評價內容特別多,因此一條一條觀察會非常浪費時間。我不得不動用自然語言處理技術,對剩余的90多套房子,提取點評關鍵詞:

image

綜合評價排序表格

為了方便學姐快速地從90套房子中選取自己中意的房子,我生成了這些房子的詞圖,坐標圖和房型圖。

另一方面,考慮對這些房源進行排序,但如何評價房子的綜合好壞呢

一般來說,看房的人越多越火,但不排除掛出來很久都沒人看上,因此用每月平均看房次數比較合適。另外,更好的房子會有更多的中介小哥對其進行評價,房評熱度較高。因此,使用下面的公式來計算房子的評價:

 

綜合評價=(總看房人數/已掛出時間)∗0.2+經紀人評論數量∗0.8

(獲取掛出時間的方法請參考附錄,公式的權重參數是我瞎編的)

我花了五分鍾生成了一個word文檔能非常方便地進行對比,選擇恐懼症福音,就像下面這個樣子:

image

 

我接着說,接下來就靠你和你男朋友對戶型進行篩選,選出20-30套覺得不錯的房子,綜合地鐵商場幼兒園地圖,制定看房計划,聯系中介,最后確定最合適的房子,這樣會比較有效率。

 

學姐看完以后,非常開心,說道,太棒了太棒了,這樣我選房就一目了然,你把你生成的這份文檔拷到我U盤上吧

這時,學姐掏出了一個非常精致的愛心優盤,說道“不要隨便亂看哦,這里面有我和我男票的愛之皂片”。

心塞啊。。。我把優盤插在電腦上准備拷貝,順便問學姐,你難道不考慮酒仙橋,清河的房子嗎?好像中關村也有符合你要求的房子呢,那里比北苑地理位置好多了。。。

學姐表情一變,啊啊啊啊,是啊,我到底該怎么選啊,你知道我有選擇恐懼症。。。你再幫我選一下吧。。。

我:。。。。。。

這時,外面有汽車鳴了兩下笛,學姐的電話也響了,應該是她的BAT男友來了。

她一看手機,啊,我男朋友來接我了,學弟今天謝謝你!於是拿起包包轉身急匆匆地就出門了。。。

哎,准備回家吧,看看能不能趁雙十一回去搶個襪子。正要收拾電腦,

“學姐,你的優盤!”

備注:

本文成文於2015年11月12日,,請聯系微信公眾號“沙漠之鷹”。所有數據和分析都來自真實數據,但並不保證事件和人物存在,如有雷同,純屬巧合。

1.越新的小區越貴?

為了證明我的猜測,我根據北苑20個小區的價格和年份進行計算,皮爾遜相關系數在0.63左右,可見,對於比較新的非學區房來說,建造年份和價格強相關。

2.計算二手房稅費和手續費的方法

中介當然不會傻到真正交多少稅寫在頁面上,但仔細觀察頁面標簽就能發現,如果是滿五年唯一或滿兩年唯一,一定會標上。如果不唯一,就會標“房本滿兩年”。從這些特征,能夠計算出每套房子的實際成交額。

目前北京二手房個人所得稅的計算只要能核實房屋原值,均要按照(出售價— 房屋原值 — 合理費用)× 20%的方法計算,不能核實原值的,個稅以本次房屋交易價格按核定征收率1%計算。但由於本次計算不能知道房屋原值,因此按1%處理。

稅費因政策更新已經修改多次,因此網絡上說法不一,異常復雜,表格中的數據,是我按照330新政的信息校對過的。

可笑的是,同一套房,不同中介代理標注的信息都不一樣:

image

3.為什么要自己選好大致的區域

每個中介的門店只負責特定的范圍。因此雖然中介能提供一個小區里的詳細信息,但很難也通常不會幫你介紹其他位置的房型。因此按照需求明確自己所需的區域,再去選擇當地的門店,是非常重要的。

4. 獲取房屋在中介登記的時間

信息中並沒有明確提到登記時間,這對我們計算房子綜合評價很重要。怎么辦呢?

笨蛋!當然是獲取第一個房評人的評論時間啊,他是登記這個信息的人!

 

 

沙漠之鷹:以程序員的視角,分析數據,解構模式,發現洞見,歡迎關注微信公共號:

image


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM