原文:weka数据挖掘拾遗(二)---- 特征选择(IG、chi-square)

一 说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法 特别是在使用svm分类时 。这里不做详细介绍,有兴趣的可以googling一下。 chi square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述。 二 weka中的使用方法 特征筛选代码 View Code View Code 三 小结 其实weka中还提供了 ...

2014-02-12 13:20 1 2653 推荐指数:

查看详情

weka数据挖掘拾遗(一)---- 生成Arff格式文件

一、什么是arff格式文件   1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式 ...

Wed Feb 12 18:49:00 CST 2014 4 7035
数据挖掘特征选择和降维

一、概念 特征选择feature selection:也被称为variable selection或者attribute selection. 是选取已有属性的子集subset来进行建模的一种方式. 进行特征选择的目的主要有: 简化模型,缩短训练时间,避免维数灾难(curse ...

Sun Jul 23 18:23:00 CST 2017 0 6242
Python数据挖掘特征工程—特征选择

如何选择特征 根据是否发散及是否相关来选择 方差选择法 先计算各个特征的方差,根据阈值,选择方差大于阈值的特征 方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤 相关系数法 ...

Sun Oct 07 05:44:00 CST 2018 0 1586
初试weka数据挖掘

的,另一个是我实验时打开的。 一.引入 数据挖掘、机器学习这些字眼,在一些人看来,是 ...

Sat Sep 07 21:26:00 CST 2013 20 17515
半年拾遗

惭愧,上一篇blog发表时间是12年8月份,现在已经13年2月份了。唉... 此处省略1w字。 半年有余,blog一直闲置了。但是闲置并不代表忘记。时不时还是会敲开cnblogs的域名胡乱逛逛。马上 ...

Wed Feb 06 23:27:00 CST 2013 17 8476
卡方分布(Chi-Square Distribution):

定义:如果我们的随机变量是标准正态分布(详见以前博客的高斯分布),那么多个随机变量的平方和服从的分布即为卡方分布。 X=Y12+Y22+⋯+Yn2 其中,Y1,Y2,⋯,Yn均为服从标准正态分布的随 ...

Sat Oct 13 19:58:00 CST 2018 0 9172
gevent拾遗

  在前文已经介绍过了gevent的调度流程,本文介绍gevent一些重要的模块,包括Timeout,Event\AsynResult, Semphore, socket patch,这些 ...

Tue Feb 14 02:37:00 CST 2017 0 2360
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM