概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人 ...
数据加载 首先在Kaggle上找到对应的竞赛页面,报名参赛下载数据,可以得到了一个train.csv和test.csv文件。 当然,如果你的电脑上已经安装了kaggle的包,当然也可以使用命令行直接下载: 接着载入数据,可以选择使用相对路径或绝对路径,这里将使用绝对路径,将表头修改成中文,索引改为乘客的ID,便于观察。 其中,chunksize是在对数据进行逐块提取时使用的参数。之所以进行逐块提取 ...
2020-08-19 00:14 0 457 推荐指数:
概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人 ...
此文发表在简书,复制过来,在下方放上链接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克号生存预测 1.背景与挖掘目标 “泰坦尼克号”的沉没是历史上最臭名昭著的海难之一。1912年4月15日,泰坦尼克号在处女航中与冰山相撞后沉没,2224名乘客 ...
Kaggle 是一个流行的数据科学竞赛平台 一、机器学习的基本步骤 二、提出问题 什么样的人更容易生存? 三、理解数据 3.1数据来源 https://www.kaggle.com/c/titanic 分为 训练集:train.csv,891条数据 测试 ...
前言 这个是Kaggle比赛中泰坦尼克号生存率的分析。强烈建议在做这个比赛的时候,再看一遍电源《泰坦尼克号》,可能会给你一些启发,比如妇女儿童先上船等。所以是否获救其实并非随机,而是基于一些背景有先后顺序的。 1,背景介绍 1912年4月15日,载着1316号乘客和891名船员的豪华 ...
本次项目主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行数据分析 环境 win8, python3.7, jupyter notebook 目录 1. 项目背景 2. 数据概览 3. 特征分析 4. 特征工程 5. 构建模型 正文 ...
大神经验: 1、 应用机器学习,千万不要一上来就试图做到完美,先撸一个baseline的model出来,再进行后续的分析步骤,一步步提高,所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,以及我们模型下 ...
泰坦尼克号获救率数据分析报告,用数据揭露真相。 一,船上乘客生存率分析报告 泰坦尼克号生存率仅有38%的,可见此次事件救援不力,救生艇严重不足,且泰坦尼克号号撞得是冰山,海水冷,没有救生艇,在水里冻死的乘客不少。 二,哪个年龄段存活率最高(青年人(18岁以下),中年人(18到50岁 ...