泰坦尼克号获救率数据分析报告,用数据揭露真相。 一,船上乘客生存率分析报告 泰坦尼克号生存率仅有38%的,可见此次事件救援不力,救生艇严重不足,且泰坦尼克号号撞得是冰山,海水冷,没有救生艇,在水里冻死的乘客不少。 二,哪个年龄段存活率最高(青年人(18岁以下),中年人(18到50岁 ...
泰坦尼克船员获救数据: titanic train.csv 用excel打开数据集。显示如下: 写在前边: 为了方便以后运用numpy和pandas的库,分别造它们的别名np和pd. 一 读取数据 运行结果: 二 对数据进行处理 .用 .isnull 来处理数据的缺失值 其实数据都有缺失值,在进行数据处理的时候首先对缺失值要有一个详细的了解。 下边将通过对列 age 列的处理来看一下缺失值的情况的 ...
2018-04-06 22:58 0 4456 推荐指数:
泰坦尼克号获救率数据分析报告,用数据揭露真相。 一,船上乘客生存率分析报告 泰坦尼克号生存率仅有38%的,可见此次事件救援不力,救生艇严重不足,且泰坦尼克号号撞得是冰山,海水冷,没有救生艇,在水里冻死的乘客不少。 二,哪个年龄段存活率最高(青年人(18岁以下),中年人(18到50岁 ...
数据中标签的含义: PassengerId => 乘客ID Pclass => 乘客等级(1/2/3等舱位) Name => 乘客姓名 Sex => 性别 Age => 年龄 SibSp => 堂兄弟/妹个数 Parch => ...
数据集下载地址: https://github.com/fayduan/Kaggle_Titanic/blob/master/train.csv 视频地址: http://study.163.com/course/courseLearn.htm?courseId ...
...
缺失值处理 真实数据往往某些变量会有缺失值。 首先,我们用 info( ) 语句操作,看到整份数据的大概情况: titanic_df.info() 从这份数据我们可以发现,这里一共有 891 行数据,所以在中间那一列数据中看到的不是 891 个数据的,都是有缺失值的。比如年龄Age ...
完整代码见kaggle kernel 或 GitHub 比赛页面:https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受欢迎的项目了,有7000多支队伍参加,多年来诞生了无数关于该比赛的经验分享。正是由于前人 ...
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式。 数据挖掘的一般过程是:数据预览 ...
。 2.2 泰坦尼克号 本次问题页面 请到Data页面下载数据集 数据集的各属性在Data页面 ...