花费 27 ms
Python数据挖掘-相关性-相关分析

所需模块 numpy、pandas 相关系数计算 首先使用numpy.mean()方法求出均值,Xsd=numpy.std()方法求出标准差; 然后在通过(X-Xmean)/Xsd公式求出z分 ...

Thu Oct 04 05:48:00 CST 2018 0 5982
Python数据挖掘—聚类—KMeans划分法

概念 聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性 无分类目标变量(Y)——无监督学习 K-Means划分法、DBS ...

Tue Oct 09 16:22:00 CST 2018 1 4026
Python数据挖掘—分类—随机森林

概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免 ...

Sat Oct 06 07:30:00 CST 2018 0 2414
Python数据挖掘—回归—线性回归

简单线性回归 步骤: 1、读取数据 2、画出散点图,求x和y 的相关系数:plt.scatter(x,y),x和y是dataframe 3、估计参数模型,建立回归模型:lrModel=Line ...

Thu Oct 04 07:27:00 CST 2018 0 2069
Python数据挖掘—回归—逻辑回归

概念 针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归   优点:算法易于实现和部署,执行效率和准确度高   缺点:离散型的自变量数据需要通过生成虚拟变量的方式来使用 ...

Fri Oct 05 01:53:00 CST 2018 0 1697
Python数据挖掘—特征工程—特征选择

如何选择特征 根据是否发散及是否相关来选择 方差选择法 先计算各个特征的方差,根据阈值,选择方差大于阈值的特征 方差过滤使用到的是VarianceThreshold类,该类有个参数thresh ...

Sun Oct 07 05:44:00 CST 2018 0 1586
Python数据挖掘—回归—神经网络

概念: 神经网络:全称为人工神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型 生物神经网络:神经细胞是构成神经系统的基本单元,称为生物神经元,简称 ...

Fri Oct 05 04:03:00 CST 2018 0 1495
Python数据挖掘-使用sklearn包

使用sklearn包 CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵 get_feature_names()可看到所有文本的关键字 voc ...

Wed Oct 03 19:41:00 CST 2018 0 1407

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM