作者:大树 更新时间:01.20 email:59888745@qq.com 数据处理,机器学习 回主目录:2017 年学习记录和总结 .caret, .dropup > .btn > .caret { border-top-color: #000 ...
一 EDA Exploratory Data Analysis EDA:也就是探索性的分析数据 目的: 理解每个特征的意义 知道哪些特征是有用的,这些特征哪些是直接可以用的,哪些需要经过变换才能用,为之后的特征工程做准备 每个特征的意义 特征的类型: 看是否存在 missing value 特征数据是否缺失 看每个特征下的数据分布,用 boxplot 或者 hist: 如果变量是categoric ...
2018-08-23 13:38 0 2975 推荐指数:
作者:大树 更新时间:01.20 email:59888745@qq.com 数据处理,机器学习 回主目录:2017 年学习记录和总结 .caret, .dropup > .btn > .caret { border-top-color: #000 ...
做完 Kaggle 比赛已经快五个月了,今天来总结一下,为秋招做个准备。 题目要求:根据主办方提供的超过 4 天约 2 亿次的点击数据,建立预测模型预测用户是否会在点击移动应用广告后下载应用程序。 数据集特点: 数据量很大,有 2 亿条之多 数据是不平衡的,点击下载的数量 ...
项目背景FBP项目全称FootBallPrediction,历经9个月完成的足球比赛预测项目。项目结合大数据+机器学习,不断摸索开发了一款软件。软件根据各大博彩公司赔率多维度预测足球比赛结果(包含胜和不胜)。机器学习用的是自己建立的“三木板模型”算法,已在国家期刊发表论文并被万方数据库收录(三木 ...
项目流程 需求分析 了解背景(为什么要做这个产品、功能) 质疑需求是否合理(比如是否是用户想要的功能) 需求是否闭环(比如点赞,点赞数据是否需要用于评论排名等) 评估开发难度 是否需要其他支持 不要急于给排期(需要看领导有没有其他工作安排,看整个部门的工作安排 ...
【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 1. 数据预处理 1.1 选择数据样本(企业级应用) 例如客观选择 ...
最近所在的两个项目组都用到了敏捷开发Scrum,之前对它的理解更多的停留在自己工作涉及到的一些具体形式,比如Daily Scrum,工作量的评估等。对于Scrum是什么,为什么要用Scrum,一直没有去思考过这些问题,更没有做过深入的学习。前几天看到园子里的一篇关于scrum的博文(http ...
先看这个 kaggle数据集下载 -------------------------------- 有时发现下载不了kaggle数据 关于kaggle没有办法下载数据集dataset问题 安装kaggle库时又出现time out的情况? pip 下载报"connection ...
参赛历程 比赛时间:3.10-4.11 历时一个多月,无论是知识眼界还是心态方面,都有了较大的改变。刚开始选这个赛题,没有什么特别的地方,顺眼就是了。直到着手准备这个比赛的时候,才发现,事情并不简单,虽然数据集只有训练集和测试集以及一个提交结果的样本, 但是数据没有任何的说明,(数据应该都是 ...