Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难。目前抽工作之余,断断续续弄了点,成绩为0.79426。在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下。 1. 分析数据 ...
.关于年龄Age 除了利用平均数来填充,还可以利用正态分布得到一些随机数来填充,首先得到已知年龄的平均数mean和方差std,然后生成 mean std, mean std 之间的随机数,然后利用这些随机值填充缺失的年龄。 .关于票价Fare 预处理:训练集不缺,测试集缺失 个,用最高频率值填充 特征工程:由于Fare分布非常不均,所以这里不用cut函数,而是qcut,因为它可以根据样本分位数对 ...
2017-10-01 21:57 0 1592 推荐指数:
Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难。目前抽工作之余,断断续续弄了点,成绩为0.79426。在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下。 1. 分析数据 ...
1,介绍 Titanic: Machine Learning from Disaster是kaggle比赛的入门训练,具体介绍可以看链接,数据在官网上下载,但需要注册登录。训练集在train.csv中,测试集在test.csv。这里对特征的处理主要是来自Sina的Titanic best ...
分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析。 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 ...
最近埋头苦读,啃机器学习的算法和编程,真是非(xiang)常(dang)欢(lan)乐(sou)呢~ 于是开始自我膨胀跃跃欲试。 嗯,那就从Kaggle的playground开始吧,找了个经典而又浪漫的爱情故事—泰坦尼克,应该能引起我的兴趣好好挖掘吧~ "You jump! I jump ...
背景 Titanic: Machine Learning from Disaster - Kaggle 2 年前就被推荐照着这个比赛做一下,结果我打开这个页面便蒙了,完全不知道该如何下手。 两年后,再次打开这个页面,看到清清楚楚的Titanic Tutorial - Kaggle,完全傻瓜式 ...
完整代码见kaggle kernel 或 GitHub 比赛页面:https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受欢迎的项目了,有7000多支队伍参加,多年来诞生了无数关于该比赛的经验分享。正是由于前人 ...
1. 引入所有需要的包 2. 读入数据源 3. 分析数据 总结:所有的数据中一共包括12个变量,其中7个是数值变量,5个 ...
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Titanic系列之派生属性&维归约 缺失值填充之后,就要对其他格式有问题的属性进行 ...