一.材料准备 https://www.kaggle.com/c/titanic-gettingStarted/ 二.提出问题 生存率和哪些因素有关(性别,年龄,是否有伴侣,票价,舱位等级,包间,出发地点) 1.乘客的年龄和票价的分布 2.样本生存的几率是多少 3.乘客 ...
. 引入所有需要的包 . 读入数据源 . 分析数据 总结:所有的数据中一共包括 个变量,其中 个是数值变量, 个是属性变量 PassengerId 忽略 :这是乘客的编号,显然对乘客是否幸存完全没有任何作用,仅做区分作用,所以我们就不考虑它了。 Survived 目标值 :乘客最后的生存情况,这个是我们预测的目标变量。不过从平均数可以看出,最后存活的概率大概是 。 Pclass 考虑 :社会经济 ...
2018-03-01 13:02 0 1638 推荐指数:
一.材料准备 https://www.kaggle.com/c/titanic-gettingStarted/ 二.提出问题 生存率和哪些因素有关(性别,年龄,是否有伴侣,票价,舱位等级,包间,出发地点) 1.乘客的年龄和票价的分布 2.样本生存的几率是多少 3.乘客 ...
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。 这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。https ...
一、前言 虽然一直算IT男,但是基本没有接触过最前沿的IT知识,一直在做生产方面的IT,突发奇想,开始学习算法,学习算法有半年多了,从最初的Python,到线性回归、逻辑回归、SVM,聚类,NL ...
分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析。 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 ...
可能生存作出分析,特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难,最后提交结果。从k ...
数据分析流程(基于excel) 业务分析 数据采集 数据处理 数据模型 数据展现 结果分析 页签:愿数据-》 数据清理和转化- 》纬度(特征)选择,删掉不要的-》按照维度进行统计人数-》 数据可视化-〉 excel 筛选(缩小确定需要的范围) 找到标签 c t r l加 ...
数据为kaggle社区发布的数据分析从业者问卷调查分析报告,其中涵盖了关于该行业不同维度的问题及调查结果。本文的目的为提取有用的数据,进行描述性展示。帮助新从业的人员更全方位地了解这个行业。 参考学习视频:http://www.tianshansoft.com/ 数据集:https ...
Kaggle-数据分析竞赛:House Price Prediction官网链接 参赛情况 参赛时间 2020-05 最终结果(均方根误差RMSE) 0.115 ...