数据来源 数据页面: 链家网南京(https://nj.lianjia.com/chengjiao/) 链家网数据量很大,这里只用南京的二手房成交数据。 如下图: 数据采集 链家网的页面数据比较整齐,采集很简单,为了避免影响别人使用,只采集的南京的二手房成交数据, 采集频率也很低,总共 ...
本文成文于 年 月 日,为作者原创,发布在博客园方便诸君阅读 前段时间发了一篇分析房价的文章,于是这两天在微信上咨询我的朋友络绎不绝。今天是光棍节,我什么都没抢到。下午,有一位学姐在微信上找我,怀着激动的心情打开微信。 学姐说, 看到你之前发的文章了,能不能帮我在北京选一套婚房啊 学姐求我,焉有不应。于是,我们约了今天晚上在北邮校园的零一咖啡厅见面。学姐是我们实验室比我大两级的女神,追求者众,据 ...
2016-04-02 17:59 4 1994 推荐指数:
数据来源 数据页面: 链家网南京(https://nj.lianjia.com/chengjiao/) 链家网数据量很大,这里只用南京的二手房成交数据。 如下图: 数据采集 链家网的页面数据比较整齐,采集很简单,为了避免影响别人使用,只采集的南京的二手房成交数据, 采集频率也很低,总共 ...
项目分享目的:在学习完Numpy,Pandas,matplotlib后,熟练运用它们的最好方法就是实践并总结。在下面的分享中,我会将每一步进行分析与代码展示, 希望能对大家有所帮助。 项目名称:链家二手房数据分析 项目概述:本项目主要利用上面提到的三个工具进行数据的处理 ...
在微博上看到这么个游戏,还是挺有意思的。http://segmentfault.com/game/ 第一关: 只是将超链接字体颜色和背景色搞成一样,当然,我们一般也不点击超链接 第二关: ...
继续上一篇的工作继续分析广州链家二手房的数据。 >> Normality Test 用nortest package 的 ad.test() 分别对三个主要因素(面积,总价和均价)进行正态分布检验,结果显示这三个变量都不满足正态分布,而 Q-Q Plot 的表现方式就更直 ...
均值回归理论 均值回归:“跌下去的迟早要涨上来” , 选股用, 不适合做择时,因为不知道什么时候是偏离最低 均值回归的理论基于以下观测:价格的波动一般会以它的均线为中心。也就是说, 当标的价格由于波动而偏离移动均线时,它将调整并重新归于均线。 定义偏离程度:(MA-P)/MA ...
一、单因子选股策略--小市值策略 二、多因子选股策略--市值+ROE(净资产收益率)选股策略 一、单因子选股策略--小市值策略 因子选股策略 因子:选择股票的某种标准 增长率、市值、市盈率、ROE(净资产收益率)............ 选股策略: 对于某个因子,选取 ...
上一篇分享了爬取链家二手房的数据,接下来就应该是分析这份数据。 小插曲:懒洋洋的夏天到了连人也变得懒洋洋的了(借口!)。拖拖拉拉地等到了链家网页改版等到了二手房放盘数目又多了 10,000 + 套(楼市小复苏?),总之又不得不重新爬了一份 51,000 + 的数据。 Inspect Data ...
环境: R 研究对象: 1. 二手房数据的区域特征 2. 二手房数据的面积特征 1. 导入原始数据 setwd("/Users/mac/Desktop/lianjia/") d = read.csv("/Users/mac/Desktop/lianjia ...