一,典型课题研究 建立一个预测模型来回答以下问题:“什么样的人更有可能生存? 二,数据 1,数据源:https://www.kaggle.com/c/titanic 2,用到的库: Numpy-科学计算库 主要用来做矩阵运算,什么?你不知道 ...
一 数据挖掘流程介绍 .数据读取 读取数据 统计指标 数据规模 .数据探索 特征理解 单特征的分析,诸个变量分析对结果y的影响 x,y的相关性 多变量分析 x,y之间的相关性 统计绘图 .数据清洗和预处理 缺失值填充 标准化 归一化 特征工程 筛选有价值的特征 分析特征之间的相关性 .建模 特征数据的准备和标签 数据集的切分 多种模型对比:交叉验证 调参 学习曲线,网格搜索 集成算法 提升算法 X ...
2019-09-24 13:22 0 954 推荐指数:
一,典型课题研究 建立一个预测模型来回答以下问题:“什么样的人更有可能生存? 二,数据 1,数据源:https://www.kaggle.com/c/titanic 2,用到的库: Numpy-科学计算库 主要用来做矩阵运算,什么?你不知道 ...
。 2.2 泰坦尼克号 本次问题页面 请到Data页面下载数据集 数据集的各属性在Data页面 ...
1、数据来源 (1)数据来源 来自kaggle的数据集Titanic:Titanic: Machine Learning from Disaster train文档数据是用来分析和建模,包含有生存情况信息;test数据是用来最终预测其生存情况并生成结果文件。 2、分析流程 (1)不同变量 ...
概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人 ...
大神经验: 1、 应用机器学习,千万不要一上来就试图做到完美,先撸一个baseline的model出来,再进行后续的分析步骤,一步步提高,所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,以及我们模型下 ...
泰坦尼克号获救率数据分析报告,用数据揭露真相。 一,船上乘客生存率分析报告 泰坦尼克号生存率仅有38%的,可见此次事件救援不力,救生艇严重不足,且泰坦尼克号号撞得是冰山,海水冷,没有救生艇,在水里冻死的乘客不少。 二,哪个年龄段存活率最高(青年人(18岁以下),中年人(18到50岁 ...
贝叶斯网络python实战(以泰坦尼克号数据集为例,pgmpy库) leida_wt 2019-03-24 23:05:36 16815 收藏 140 ...