原文:机器学习模型的特征监控方案设计

. 预备知识 . KS 检验 KS 检验与t 检验等方法不同的是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布时,KS 检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS 检验作为非参数检验,在分析两组数据之间是否存在异常时相当常用。 PS:t 检验的假设是检验的数据满足正态分布,否则对于小样本不满足正态分布的数据用t ...

2018-10-30 16:24 0 759 推荐指数:

查看详情

机器学习中的模型选择和特征选择的基本方法

  模型选择的标准是尽可能地贴近样本真实的分布。但是在有限的样本下,如果我们有多个可选模型,比如从简单到复杂,从低阶到高阶,参数由少到多。那么我们怎么选择模型呢,是对训练样本的拟合度越好就可以吗?显然不是,因为这样做的话只会让我们最终选择出最复杂,最高阶的模型。而这个模型的问题是过拟合 ...

Fri Jul 20 23:00:00 CST 2018 2 2626
机器学习模型为什么要将特征离散化

  在学习机器学习中,看过挺多案例,看到很多人在处理数据的时候,经常把连续性特征离散化。为此挺好奇,为什么要这么做,什么情况下才要做呢。 一、离散化原因   数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有 ...

Tue Aug 07 08:54:00 CST 2018 0 901
机器学习模型为什么要将特征离散化

我在刷Kaggle时发现一个问题。很多人在处理数据的时候,经常把连续性特征离散化。对此我感到很好奇,所以上网搜了一些总结,主要内容来自知乎连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? 这个是严林的回答 在工业界,很少直接将连续值作为逻辑回归模型特征输入,而是将连续 ...

Fri Apr 14 17:46:00 CST 2017 0 6613
机器学习特征工程

一、特征工程概述 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在 ...

Thu May 12 18:17:00 CST 2016 0 43009
机器学习——特征工程

机器学习是从数据中自动分析获取规律(模型),并利用规律对未知数据进行预测。 数据集的构成:特征值+目标值(根据目的收集特征数据,根据特征去判断、预测)。(注意:机器学习不需要去除重复样本数据) 常用的数据集网址: Kaggle网址:https://www.kaggle.com ...

Sat Oct 23 19:38:00 CST 2021 0 105
关于机器学习特征缩放

Andrew在他的机器学习课程里强调,在进行学习之前要进行特征缩放,目的是保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛。 python里常用的是preprocessing.StandardScaler() 公式为:(X-mean)/std 计算时对每个属性/每列分别进行 ...

Mon Jun 25 18:48:00 CST 2018 0 952
前端监控和前端埋点方案设计--摘抄

一、为什么需要前端监控 前端监控的目的是: 获取用户行为以及跟踪产品在用户端的使用情况,并以监控数据为基础,指明产品优化的方向 。 前端监控可以分为三类:数据监控、性能监控和异常监控。下面我们来一一的了解。 (1)数据监控 ...

Sun Sep 09 01:50:00 CST 2018 0 6255
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM