項目名稱: 北京地區短租數據集分析及價格建模預測 項目概述: 本項目主要是對短租數據集進行數據探索性分析,通過特征工程提取相關特征,在11個回歸模型中對數據集進行建模訓練,實現房價預測。 最后經過對比分析,選取其中表現較好的模型進一步調參優化,得到最優模型。 項目背景: 共享 ...
作者注:本文為 沙漠之鷹 原創文章,為了保證行文流暢,沒有插入實現代碼,簡單統計分析博客園的讀者應該都能做。 過年之后,很多人選擇租房。我的不少朋友告訴我, 之前你發布的北京買房攻略很有意思,可是不接地氣啊,能不能分析一下帝都租房的情況啊 我想也是,於是下班之后,配置了爬蟲工具,從北京各大中介網站抓取了 萬余條租房數據。其實經過去重和過濾,剩下的不過兩萬余條。我估算,整個租房市場在春節后這個旺季 ...
2016-03-08 08:57 53 11103 推薦指數:
項目名稱: 北京地區短租數據集分析及價格建模預測 項目概述: 本項目主要是對短租數據集進行數據探索性分析,通過特征工程提取相關特征,在11個回歸模型中對數據集進行建模訓練,實現房價預測。 最后經過對比分析,選取其中表現較好的模型進一步調參優化,得到最優模型。 項目背景: 共享 ...
前言: 好吧我承認已經有四年多沒有更新博客了。。。。 在這四年中發生了很多事情,換了工作,換了工作的方向。在工作的第一年的時候接觸機器學習,從那之后的一年非常狂熱的學習機器學習的相關技術,也寫了一些自己的理解和感悟。今天大概看了一下這個博客的總體閱讀人數已經有70多萬了,印象中之前還只有十多 ...
先扯一下大數據的4V特征: 數據量大,TB->PB 數據類型繁多,結構化、非結構化文本、日志、視頻、圖片、地理位置等; 商業價值高,但是這種價值需要在海量數據之上,通過數據分析與機器學習更快速的挖掘出來; 處理時效性高,海量數據的處理需求不再局限在離線計算當中。 現如今,正式 ...
效果圖: ...
本文由雲+社區發表 作者:堵俊平 在數據爆炸與智能革命的新時代,新的平台與應用層出不窮,開源項目推動了前沿技術和業界生態快速發展。本次分享將以技術和生態兩大視角來看大數據和人工智能技術的發展,通過分析當下熱門的開源產品和技術,來梳理未來的行業生態以及技術趨勢 ...
2021年大數據發展趨勢及動態 2021年大數據發展趨勢及動態,大數據已經走單純的技術架構和技術體系,走向了社會基礎設施。2020年“新基建”就將“大數據中心”定義為數字新基礎設施的重要建設內容。基於隱私計算的數據流通技術成為實現數據聯合計算的主要思路。隱私計算在保護數據 ...
目前面試了多家大數據開發工程師,成長了很多,也知道了很多知識,下面和大家分享一下我遇到的面試題和答案。 1.kafka集群的規模,消費速度是多少。 答:一般中小型公司是10個節點,每秒20M左右。 2.hdfs上傳文件的流程。 答:這里描述的 是一個256M的文件上傳 ...