1. 引入所有需要的包 2. 读入数据源 3. 分析数据 总结:所有的数据中一共包括12个变量,其中7个是数值变量,5个是属性变量 PassengerId(忽略):这是乘客的编号,显然对乘客是否幸存完全没有任何作用 ...
分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析。 参考文章:技术世界,原文链接http: www.jasongj.com ml classification 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 案例分析 加载包 加载文件 数据整理 统计幸存和遇难人数是否与舱位等级有关 可以看到,头等舱的乘客获救率是最高的,舱位等级越高,获救几率越大 计算舱位等级 ...
2017-12-23 21:29 0 2043 推荐指数:
1. 引入所有需要的包 2. 读入数据源 3. 分析数据 总结:所有的数据中一共包括12个变量,其中7个是数值变量,5个是属性变量 PassengerId(忽略):这是乘客的编号,显然对乘客是否幸存完全没有任何作用 ...
1.关于年龄Age 除了利用平均数来填充,还可以利用正态分布得到一些随机数来填充,首先得到已知年龄的平均数mean和方差std,然后生成[ mean-std, mean+std ]之间的随机数,然 ...
Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难。目前抽工作之余,断断续续弄了点,成绩为0.79426。在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下。 1. 分析数据 ...
情况,第一个当然就是最基础的泰坦尼克存活预测啦。 二、背景介绍 背景介绍:泰坦尼克号沉没是历史 ...
两个预测kaggle比赛 一 .https://www.kaggle.com/c/web-traffic-time-series-forecasting/overview Arthur Suilin•(1st in this Competition)•a year ago•Options ...
1,介绍 Titanic: Machine Learning from Disaster是kaggle比赛的入门训练,具体介绍可以看链接,数据在官网上下载,但需要注册登录。训练集在train.csv中,测试集在test.csv。这里对特征的处理主要是来自Sina的Titanic best ...
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。 这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。https ...
最近埋头苦读,啃机器学习的算法和编程,真是非(xiang)常(dang)欢(lan)乐(sou)呢~ 于是开始自我膨胀跃跃欲试。 嗯,那就从Kaggle的playground开始吧,找了个经典而又浪漫的爱情故事—泰坦尼克,应该能引起我的兴趣好好挖掘吧~ "You jump! I jump ...