问题:越深越好? 层数越多,参数越多,model比较复杂,数据又多的话,本来误差就越小,这为什么归因于”深“呢? 矮胖结构 v.s. 高瘦结构 真正要比较”深“和”浅“的model的时候 ...
李宏毅深度学习笔记 https: datawhalechina.github.io leeml notes 李宏毅深度学习视频 https: www.bilibili.com video BV JE g XF step 神经网络 激活函数是sigmoid,红色圈是一组神经元,每个神经元都有自己的权重和偏差。 完全连接前馈神经网络 给定网络结构,相当于定义了一个函数集,每个神经元可以使用不同的函数, ...
2020-05-31 21:24 0 1388 推荐指数:
问题:越深越好? 层数越多,参数越多,model比较复杂,数据又多的话,本来误差就越小,这为什么归因于”深“呢? 矮胖结构 v.s. 高瘦结构 真正要比较”深“和”浅“的model的时候 ...
Transformer英文的意思就是变形金刚,Transformer现在有一个非常知名的应用,这个应用叫做BERT,BERT就是非监督的Transformer,Transformer是一个seq2se ...
一、机器学习简介 是什么? 机器学习:给模型(函数)输入数据,输出结果。 机器学习分类: 1)监督学习:即给定输入和输出以及输出,学习函数。 2)半监督学习:数据不够,有一部分数据有输入和输出,但有一部分没有输出。 3)无监督学习:只有输入没有输出。 4)迁移学习:可以有label ...
P1 一、线性回归中的模型选择 上图所示: 五个模型,一个比一个复杂,其中所包含的function就越多,这样就有更大几率找到一个合适的参数集来更好的拟合训练集。所以,随着模型的复杂度提 ...
半监督学习 什么是半监督学习? 大家知道在监督学习里,有一大堆的训练数据(由input和output对组成)。例如上图所示\(x^r\)是一张图片,\(y^r\)是类别的label。 半监督学习是说,在label数据上面,有另外一组unlabeled的数据,写成\(x^u ...
李宏毅深度学习笔记 https://datawhalechina.github.io/leeml-notes 李宏毅深度学习视频 https://www.bilibili.com/video/BV1JE411g7XF 背景 梯度下降 假设有很多参数\(\theta\) 选择一组初始值 ...
在讲Sequence Generation之前,再复习下RNN和有门的RNN(LSTM,GRU) 之前告诉你说,RNN是一个有记忆的神经网络,但今天从另外一个角度来讲RNN。我们说RNN特别 ...
李宏毅深度学习笔记 https://datawhalechina.github.io/leeml-notes 李宏毅深度学习视频 https://www.bilibili.com/video/BV1JE411g7XF 普通的梯度下降法 学习率\(\eta\)是个超参数需要人工调整 ...