一、EDA(Exploratory Data Analysis) EDA:也就是探索性的分析数据 目的: 理解每个特征的意义; 知道哪些特征是有用的,这些特征哪些是直 ...
做完 Kaggle 比赛已经快五个月了,今天来总结一下,为秋招做个准备。 题目要求:根据主办方提供的超过 天约 亿次的点击数据,建立预测模型预测用户是否会在点击移动应用广告后下载应用程序。 数据集特点: 数据量很大,有 亿条之多 数据是不平衡的,点击下载的数量远远小于没有点击下载的数量 不平衡数据集的处理思路: 一般对样本进行 上采样 和 下采样,顾名思义就是 多的样本少采一点,少的样本多采一点。 ...
2018-10-14 10:54 0 1139 推荐指数:
一、EDA(Exploratory Data Analysis) EDA:也就是探索性的分析数据 目的: 理解每个特征的意义; 知道哪些特征是有用的,这些特征哪些是直 ...
先看这个 kaggle数据集下载 -------------------------------- 有时发现下载不了kaggle数据 关于kaggle没有办法下载数据集dataset问题 安装kaggle库时又出现time out的情况? pip 下载报"connection ...
参赛历程 比赛时间:3.10-4.11 历时一个多月,无论是知识眼界还是心态方面,都有了较大的改变。刚开始选这个赛题,没有什么特别的地方,顺眼就是了。直到着手准备这个比赛的时候,才发现,事情并不简单,虽然数据集只有训练集和测试集以及一个提交结果的样本, 但是数据没有任何的说明,(数据应该都是 ...
Kaggle比赛心得 转 最近参加了两场Kaggle比赛,收获颇多,一直想写篇文章总结一下。接触Kaggle到现在不到一年,比赛成绩一个银牌 ...
比赛介绍 这是M5预测挑战赛的两个互补比赛之一。你能尽可能准确地估计沃尔玛在美国销售的各种产品的单位销售额吗?如果你对估计同一系列已实现值的不确定性分布感兴趣,一定要查看它的竞争对手 一家商店一年内每月能卖多少露营用具?对于外行来说,在这个水平上计算销售额似乎和预测天气一样困难。这两种预测 ...
from: 七月在线 电商推荐与销量预测相关案例 一、预测用户对哪个事件感兴趣(感兴趣不一定去参加) 用户历史参加事件、社交信息、浏览信息(app)、要预测的事件 recall:召回率 准确 ...
Kaggle 比赛技巧 多种的模型融合 公开训练集交叉验证的结果CV SCORE作为模型性能指标 TTA (Test Time Augmentation) 对测试集进行数据增强(Image)或微小修改(Raw Data),然后进行多次预测,得到多个测试集预测 ...
背景 Titanic: Machine Learning from Disaster - Kaggle 2 年前就被推荐照着这个比赛做一下,结果我打开这个页面便蒙了,完全不知道该如何下手。 两年后,再次打开这个页面,看到清清楚楚的Titanic Tutorial - Kaggle,完全傻瓜式 ...