数据分析和挖掘实战第15章的一段读取.txt文件报错 import pandas as pd inputfile = 'data/meidi_jd.txt' outputfile = 'da ...
数据分析和挖掘实战第15章的一段读取.txt文件报错 import pandas as pd inputfile = 'data/meidi_jd.txt' outputfile = 'da ...
所需模块 numpy、pandas 相关系数计算 首先使用numpy.mean()方法求出均值,Xsd=numpy.std()方法求出标准差; 然后在通过(X-Xmean)/Xsd公式求出z分 ...
概念 聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性 无分类目标变量(Y)——无监督学习 K-Means划分法、DBS ...
1、使用scatter_matrix判断个特征的数据分布及其关系 散步矩阵(scatter_matrix) Pandas中散步矩阵的函数原理 参数如下: frame:(Da ...
概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免 ...
简单线性回归 步骤: 1、读取数据 2、画出散点图,求x和y 的相关系数:plt.scatter(x,y),x和y是dataframe 3、估计参数模型,建立回归模型:lrModel=Line ...
概念 针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归 优点:算法易于实现和部署,执行效率和准确度高 缺点:离散型的自变量数据需要通过生成虚拟变量的方式来使用 ...
如何选择特征 根据是否发散及是否相关来选择 方差选择法 先计算各个特征的方差,根据阈值,选择方差大于阈值的特征 方差过滤使用到的是VarianceThreshold类,该类有个参数thresh ...
概念: 神经网络:全称为人工神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型 生物神经网络:神经细胞是构成神经系统的基本单元,称为生物神经元,简称 ...
使用sklearn包 CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵 get_feature_names()可看到所有文本的关键字 voc ...