原文:数据挖掘案例分析-泰坦尼克号数据

一 数据挖掘流程介绍 .数据读取 读取数据 统计指标 数据规模 .数据探索 特征理解 单特征的分析,诸个变量分析对结果y的影响 x,y的相关性 多变量分析 x,y之间的相关性 统计绘图 .数据清洗和预处理 缺失值填充 标准化 归一化 特征工程 筛选有价值的特征 分析特征之间的相关性 .建模 特征数据的准备和标签 数据集的切分 多种模型对比:交叉验证 调参 学习曲线,网格搜索 集成算法 提升算法 X ...

2019-09-24 13:22 0 954 推荐指数:

查看详情

泰坦尼克号-数据挖掘项目实战

一,典型课题研究 建立一个预测模型来回答以下问题:“什么样的人更有可能生存? 二,数据 1,数据源:https://www.kaggle.com/c/titanic 2,用到的库: Numpy-科学计算库 主要用来做矩阵运算,什么?你不知道 ...

Tue May 26 03:31:00 CST 2020 0 3331
Kaggle泰坦尼克号案例

1、数据来源 (1)数据来源 来自kaggle的数据集Titanic:Titanic: Machine Learning from Disaster train文档数据是用来分析和建模,包含有生存情况信息;test数据是用来最终预测其生存情况并生成结果文件。 2、分析流程 (1)不同变量 ...

Sat Jun 09 00:14:00 CST 2018 1 6547
数据分析-kaggle泰坦尼克号生存率分析

概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人 ...

Wed Apr 03 04:42:00 CST 2019 0 2332
泰坦尼克号之灾分析

大神经验: 1、 应用机器学习,千万不要一上来就试图做到完美,先撸一个baseline的model出来,再进行后续的分析步骤,一步步提高,所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,以及我们模型下 ...

Sat Aug 18 19:41:00 CST 2018 1 1185
泰坦尼克号沉没之谜,用数据还原真相——Titanic获救率分析(用pyecharts)

泰坦尼克号获救率数据分析报告,用数据揭露真相。 一,船上乘客生存率分析报告 泰坦尼克号生存率仅有38%的,可见此次事件救援不力,救生艇严重不足,且泰坦尼克号号撞得是冰山,海水冷,没有救生艇,在水里冻死的乘客不少。 二,哪个年龄段存活率最高(青年人(18岁以下),中年人(18到50岁 ...

Sat Sep 22 19:56:00 CST 2018 1 3733
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM