原文:李宏毅深度学习笔记07---Transformer

.Transformer的入门简介 transformer是一种带有self attention的seq seq 的模型 处理seq seq的问题最常用的架构是RNN 下图,左边的结构是RNN,右边的结构是self attention layer,bi可以基于整个输入序列而得到的。b ,b ,b ,b 是并行计算的。 self attention layer 可以取代RNN .Self atte ...

2020-06-15 09:39 0 708 推荐指数:

查看详情

深度学习笔记-Transformer

Transformer英文的意思就是变形金刚,Transformer现在有一个非常知名的应用,这个应用叫做BERT,BERT就是非监督的TransformerTransformer是一个seq2seq model with “self-attention"。Transformer在seq2seq ...

Wed Nov 25 00:18:00 CST 2020 0 1162
深度学习笔记-为什么要深度

问题:越深越好? 层数越多,参数越多,model比较复杂,数据又多的话,本来误差就越小,这为什么归因于”深“呢? 矮胖结构 v.s. 高瘦结构 真正要比较”深“和”浅“的model的时候 ...

Thu Jun 04 04:58:00 CST 2020 0 662
笔记】机器学习 - -- Transformer

1.RNN和CNN的局限性 RNN是seq2seq的模型,RNN不易平行化,如果是单向的话,要输出\(b^3\),需要先看完\(a^1, a^2, a^3\)。如果是双向的话,可以看完整个句子。 ...

Wed Apr 08 02:58:00 CST 2020 0 1386
深度学习笔记-深度学习简介

深度学习笔记 https://datawhalechina.github.io/leeml-notes 深度学习视频 https://www.bilibili.com/video/BV1JE411g7XF step1 神经网络 激活函数是sigmoid,红色圈是一组神经元,每个 ...

Mon Jun 01 05:24:00 CST 2020 0 1388
《机器学习 深度学习》简要笔记(一)

P1 一、线性回归中的模型选择 上图所示:   五个模型,一个比一个复杂,其中所包含的function就越多,这样就有更大几率找到一个合适的参数集来更好的拟合训练集。所以,随着模型的复杂度提 ...

Mon Jul 22 01:14:00 CST 2019 0 436
深度学习笔记-半监督学习

半监督学习 什么是半监督学习? 大家知道在监督学习里,有一大堆的训练数据(由input和output对组成)。例如上图所示\(x^r\)是一张图片,\(y^r\)是类别的label。 半监督学习是说,在label数据上面,有另外一组unlabeled的数据,写成\(x^u ...

Mon Jun 15 01:13:00 CST 2020 3 2154
深度学习笔记-SVM支持向量机

什么是支持向量机? 支持向量机有两个特色: 第一个是使用了Hinge Loss(折页损失函数、铰链损失函数) 另一个是最厉害的地方,有个kernel trick(核技巧) Hinge Loss+kernel trick就是支持向量机 机器学习三个步骤 思考二分类任务 ...

Sat Jun 13 04:59:00 CST 2020 0 957
深度学习笔记-反向传播

深度学习笔记 https://datawhalechina.github.io/leeml-notes 深度学习视频 https://www.bilibili.com/video/BV1JE411g7XF 背景 梯度下降 假设有很多参数\(\theta\) 选择一组初始值 ...

Mon Jun 01 22:45:00 CST 2020 0 544
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM