做完 Kaggle 比赛已经快五个月了,今天来总结一下,为秋招做个准备。 题目要求:根据主办方提供的超过 4 天约 2 亿次的点击数据,建立预测模型预测用户是否会在点击移动应用广告后下载应用程序。 数据集特点: 数据量很大,有 2 亿条之多 数据是不平衡的,点击下载的数量 ...
参赛历程 比赛时间: . . 历时一个多月,无论是知识眼界还是心态方面,都有了较大的改变。刚开始选这个赛题,没有什么特别的地方,顺眼就是了。直到着手准备这个比赛的时候,才发现,事情并不简单,虽然数据集只有训练集和测试集以及一个提交结果的样本, 但是数据没有任何的说明, 数据应该都是从客户那里收集的,所以主办方为了保护客户的隐私,做了脱敏处理 除了ID code都是数值型的数据,可是它们代表的是什么 ...
2019-04-12 15:48 0 575 推荐指数:
做完 Kaggle 比赛已经快五个月了,今天来总结一下,为秋招做个准备。 题目要求:根据主办方提供的超过 4 天约 2 亿次的点击数据,建立预测模型预测用户是否会在点击移动应用广告后下载应用程序。 数据集特点: 数据量很大,有 2 亿条之多 数据是不平衡的,点击下载的数量 ...
Kaggle比赛心得 转 最近参加了两场Kaggle比赛,收获颇多,一直想写篇文章总结一下。接触Kaggle到现在不到一年,比赛成绩一个银牌 ...
先看这个 kaggle数据集下载 -------------------------------- 有时发现下载不了kaggle数据 关于kaggle没有办法下载数据集dataset问题 安装kaggle库时又出现time out的情况? pip 下载报"connection ...
比赛介绍 这是M5预测挑战赛的两个互补比赛之一。你能尽可能准确地估计沃尔玛在美国销售的各种产品的单位销售额吗?如果你对估计同一系列已实现值的不确定性分布感兴趣,一定要查看它的竞争对手 一家商店一年内每月能卖多少露营用具?对于外行来说,在这个水平上计算销售额似乎和预测天气一样困难。这两种预测 ...
from: 七月在线 电商推荐与销量预测相关案例 一、预测用户对哪个事件感兴趣(感兴趣不一定去参加) 用户历史参加事件、社交信息、浏览信息(app)、要预测的事件 recall:召回率 准确 ...
Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难。目前抽工作之余,断断续续弄了点,成绩为0.79426。在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下。 1. 分析数据 ...
现如今,深度学习方法成了解决nlp任务的首选方案,比如textCNN、LSTM、GRU、BiLSTM、Attention、BERT等等。当然,有的nlp任务也可以用机器学习方法去解决,至于哪种任务用哪 ...
Kaggle 比赛技巧 多种的模型融合 公开训练集交叉验证的结果CV SCORE作为模型性能指标 TTA (Test Time Augmentation) 对测试集进行数据增强(Image)或微小修改(Raw Data),然后进行多次预测,得到多个测试集预测 ...