注:本文中涉及到的公式一律省略(公式不好敲出来),若想了解公式的具体实现,请参考原著。 1、基本概念 (1)聚类的思想: 将数据集划分为若干个不想交的子集(称为一个簇cluste ...
损失函数和风险函数 损失函数:常见的有 损失函数 绝对损失函数 平方损失函数 对数损失函数 风险函数:损失函数的期望 经验风险:模型在数据集T上的平均损失 根据大数定律,当N趋向于 时,经验风险趋向于风险函数 模型评估方法 训练误差与测试误差 训练误差:关于训练集的平均损失 测试误差:定义模型关于测试集的平均损失。其反映了学习方法对未知测试数据集的预测能力 泛化误差:学到的模型对未知数据的预测能 ...
2017-10-20 22:33 0 2174 推荐指数:
注:本文中涉及到的公式一律省略(公式不好敲出来),若想了解公式的具体实现,请参考原著。 1、基本概念 (1)聚类的思想: 将数据集划分为若干个不想交的子集(称为一个簇cluste ...
半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法 1、生成式半监督学习 优点:方法简单,容易实现。通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好 缺点:假设的生成式模型必须与真实 ...
数据预处理的常用流程: 1)去除唯一属性 2)处理缺失值 3)属性编码 4)数据标准化、正则化 5)特征选择 6)主成分分析 1、去除唯一属性 如id属性,是唯一属性,直接去除就好 2、处理缺失值 (1)直接使用含有缺失值 ...
注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容 降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1、主成分分 ...
一 矩阵求导 复杂矩阵问题求导方法:可以从小到大,从scalar到vector再到matrix。 x is a column vector, A is a matrix d(A&am ...
一、模型验证 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。 这里我们将训练集再分成训练集与验证集两部分,大概比例就是3:1吧。一般来讲不同的训练集、验证集 ...
6. 学习模型的评估与选择 Content 6. 学习模型的评估与选择 6.1 如何调试学习算法 6.2 评估假设函数(Evaluating a hypothesis) 6.3 模型选择与训练/验证/测试集(Model selection ...
三、评估方法 1、留出法(hold-out) 直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D = S ∪ T,S ∩ T = ø 。在 S 上训练出模型后,用 T 来评估其测试误差,作为对泛化误差的估计。 举例: 以二分类任务为例 ...