贝叶斯网络python实战(以泰坦尼克号数据集为例,pgmpy库) leida_wt 2019-03-24 23:05:36 16815 收藏 140 ...
引言 刚接触python与大数据不久,这个是学长给出的练习题目。知识积累太少,学习用了不少的时间。尽量详细的写,希望对各位的学习有所帮助。 背景 . Kaggle 本次数据集来自于Kaggle。Kaggle是一个数据分析建模的应用竞赛平台。想要了解详细资料的小伙伴请自行百度。 . 泰坦尼克号 本次问题页面 请到Data页面下载数据集 数据集的各属性在Data页面下有详细介绍。 问题就是以大家熟悉 ...
2017-07-02 15:47 2 10754 推荐指数:
贝叶斯网络python实战(以泰坦尼克号数据集为例,pgmpy库) leida_wt 2019-03-24 23:05:36 16815 收藏 140 ...
一、数据挖掘流程介绍 1.数据读取 -读取数据 -统计指标 -数据规模 2.数据探索(特征理解) -单特征的分析,诸个变量分析对结果y的影响(x,y的相关性) -多变量分析(x,y之间的相关性) -统计绘图 3.数据清洗和预处理 ...
大神经验: 1、 应用机器学习,千万不要一上来就试图做到完美,先撸一个baseline的model出来,再进行后续的分析步骤,一步步提高,所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,以及我们模型下 ...
概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人 ...
此文发表在简书,复制过来,在下方放上链接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克号生存预测 1.背景与挖掘目标 “泰坦尼克号”的沉没是历史上最臭名昭著的海难之一。1912年4月15日,泰坦尼克号在处女航中与冰山相撞后沉没,2224名乘客 ...
泰坦尼克号获救率数据分析报告,用数据揭露真相。 一,船上乘客生存率分析报告 泰坦尼克号生存率仅有38%的,可见此次事件救援不力,救生艇严重不足,且泰坦尼克号号撞得是冰山,海水冷,没有救生艇,在水里冻死的乘客不少。 二,哪个年龄段存活率最高(青年人(18岁以下),中年人(18到50岁 ...
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式。 数据挖掘的一般过程是:数据预览 ...
一,典型课题研究 建立一个预测模型来回答以下问题:“什么样的人更有可能生存? 二,数据 1,数据源:https://www.kaggle.com/c/titanic 2,用到的库: Numpy-科学计算库 主要用来做矩阵运算,什么?你不知道 ...