【文章推荐】机器学习模型为什么要将特征离散化

原文：机器学习模型为什么要将特征离散化

在学习机器学习中，看过挺多案例，看到很多人在处理数据的时候，经常把连续性特征离散化。为此挺好奇，为什么要这么做，什么情况下才要做呢。一离散化原因数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离等频率或优化的方法。数据离散化的原因主要有以下几点：算法需要比如决策树朴素贝叶斯等算法，都是基于离散型的数据展开的。如果要使用该类算法，必须将离散型的数据 ...

2018-08-07 00:54 0 901 推荐指数：

查看详情

机器学习模型为什么要将特征离散化

我在刷Kaggle时发现一个问题。很多人在处理数据的时候，经常把连续性特征离散化。对此我感到很好奇，所以上网搜了一些总结，主要内容来自知乎连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？这个是严林的回答在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续 ...

机器学习之特征归一化

　　当数据集的数值属性具有非常大的比例差异，往往导致机器学习的算法表现不佳，当然也有极少数特例。在实际应用中，通过梯度下降法求解的模型通常需要归一化，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树不使用，以C4.5为例，决策树在进行节点分裂时主要依据数据集D关于特征X的信息增益 ...

机器学习做特征归一化和特征化的原因

原文链接：https://blog.csdn.net/blogshinelee/article/details/102875044 1 引言　　Feature scaling，常见的提法有“特征归一化”、“标准化”，是数据预处理中的重要技术，有时甚至决定了算法能不能work以及work得好 ...

机器学习模型的特征监控方案设计

1. 预备知识 1.1 KS-检验 KS-检验与t-检验等方法不同的是KS检验不需要知道数据的分布情况，可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时，KS-检 ...

机器学习中的模型选择和特征选择的基本方法

　　模型选择的标准是尽可能地贴近样本真实的分布。但是在有限的样本下，如果我们有多个可选模型，比如从简单到复杂，从低阶到高阶，参数由少到多。那么我们怎么选择模型呢，是对训练样本的拟合度越好就可以吗？显然不是，因为这样做的话只会让我们最终选择出最复杂，最高阶的模型。而这个模型的问题是过拟合 ...

机器学习处理流程、特征工程，模型设计实例

.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { ...

原文：机器学习模型为什么要将特征离散化

相关推荐

相关标签