\(L1\)正则化及其推导 在机器学习的Loss函数中,通常会添加一些正则化(正则化与一些贝叶斯先验本质上是一致的,比如\(L2\)正则化与高斯先验是一致的、\(L1\)正则化与拉普拉斯先验是一致的等等,在这里就不展开讨论)来降低模型的结构风险,这样可以使降低模型复杂度、防止参数过大等。大部分 ...
\(L1\)正则化及其推导 在机器学习的Loss函数中,通常会添加一些正则化(正则化与一些贝叶斯先验本质上是一致的,比如\(L2\)正则化与高斯先验是一致的、\(L1\)正则化与拉普拉斯先验是一致的等等,在这里就不展开讨论)来降低模型的结构风险,这样可以使降低模型复杂度、防止参数过大等。大部分 ...
直接推导,直接运用规则进行的推导 间接推导、n次推导 有两种符号 第一种是,表示多次运用直接推导 第二种是,表示零次或多次运用直接推导 n表示中间的步骤数 规范推导 其实就是最右推导 ...
先来回顾一下梯度下降法的参数更新公式: (其中,α是学习速率,是梯度) 这个公式是怎么来的呢?下面进行推导: 首先,如果一个函数 n 阶可导,那么我们可以用多项式仿造一个相似的函数,这就是泰勒展开式。其在a点处的表达式如下: 可以看出,随着式子的展开,这个展 ...
1 学习策略 1.1 软间隔最大化 上一章我们所定义的“线性可分支持向量机”要求训练数据是线性可分的。然而在实际中,训练数据往往包括异常值(outlier),故而常是线性不可分的。这就要求我们要 ...
1.两点分布——离散型概率分布 概念:一次试验,若成功随机变量取值为1,成功概率为p; 若失败随机变量取0,失败概率为1-p 期望\(E(X)=1*p+0*(1-p)=p\) 方差 \[ ...
模型 生成模型介绍 我们定义样本空间为\(\mathcal{X} \subseteq \mathbb{R}^n\),输出空间为\(\mathcal{Y} = \{c_1, c_2, ..., c_ ...
2018北京冬令营模拟题 day1 “普及组选手做前 3 道题目,提高组选手做后 3 道题目”,所以 T1 我就不写题解了。 售票(kartomat) 试题描述 C 市火车站最近出现了一种新 ...
1. 模型 1.1 超平面 我们称下面形式的集合为超平面 \[\begin{aligned} \{ \bm{x} | \bm{a}^{T} \bm{x} - b = 0 \} \end{a ...
1、活前缀的有效项目集的定义 2、简单理解 这个概念出现于LR分析法,LR分析法可以看作是一种模拟最左规约的符号分析法,我们假设我们在做最左规约的时候,有一个符号栈存放我们读入的符号 ...
声学模型是指给定声学符号(音素)的情况下对音频特征建立的模型。 数学表达 用 \(X\) 表示音频特征向量 (观察向量),用 \(S\) 表示音素 (隐藏/内部状态),声学模型表示为 \(P(X| ...