项目名称: 北京地区短租数据集分析及价格建模预测 项目概述: 本项目主要是对短租数据集进行数据探索性分析,通过特征工程提取相关特征,在11个回归模型中对数据集进行建模训练,实现房价预测。 最后经过对比分析,选取其中表现较好的模型进一步调参优化,得到最优模型。 项目背景: 共享 ...
作者注:本文为 沙漠之鹰 原创文章,为了保证行文流畅,没有插入实现代码,简单统计分析博客园的读者应该都能做。 过年之后,很多人选择租房。我的不少朋友告诉我, 之前你发布的北京买房攻略很有意思,可是不接地气啊,能不能分析一下帝都租房的情况啊 我想也是,于是下班之后,配置了爬虫工具,从北京各大中介网站抓取了 万余条租房数据。其实经过去重和过滤,剩下的不过两万余条。我估算,整个租房市场在春节后这个旺季 ...
2016-03-08 08:57 53 11103 推荐指数:
项目名称: 北京地区短租数据集分析及价格建模预测 项目概述: 本项目主要是对短租数据集进行数据探索性分析,通过特征工程提取相关特征,在11个回归模型中对数据集进行建模训练,实现房价预测。 最后经过对比分析,选取其中表现较好的模型进一步调参优化,得到最优模型。 项目背景: 共享 ...
前言: 好吧我承认已经有四年多没有更新博客了。。。。 在这四年中发生了很多事情,换了工作,换了工作的方向。在工作的第一年的时候接触机器学习,从那之后的一年非常狂热的学习机器学习的相关技术,也写了一些自己的理解和感悟。今天大概看了一下这个博客的总体阅读人数已经有70多万了,印象中之前还只有十多 ...
先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式 ...
效果图: ...
本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展。本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析当下热门的开源产品和技术,来梳理未来的行业生态以及技术趋势 ...
2021年大数据发展趋势及动态 2021年大数据发展趋势及动态,大数据已经走单纯的技术架构和技术体系,走向了社会基础设施。2020年“新基建”就将“大数据中心”定义为数字新基础设施的重要建设内容。基于隐私计算的数据流通技术成为实现数据联合计算的主要思路。隐私计算在保护数据 ...
目前面试了多家大数据开发工程师,成长了很多,也知道了很多知识,下面和大家分享一下我遇到的面试题和答案。 1.kafka集群的规模,消费速度是多少。 答:一般中小型公司是10个节点,每秒20M左右。 2.hdfs上传文件的流程。 答:这里描述的 是一个256M的文件上传 ...