简介 LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题。以下先从RNN介绍。 简说RNN RNN(Rec ...
: : : : 备注:大部分内容转自知乎谢春霖 NLP理解层次:对一个事情的理解,我们可以分为 个理解层次 精神 精神是什么意思 就是你与世界的关系。也就是我们经常听到的 人生使命 ,你来到这个世界是为了什么 你能为别人,为社会,为整个人类带来什么 这个世界会因为你而有什么不同 身份 你之所以有时候会不知道该如何选择,除了对某些概念不清楚之外,最重要的就是你不知道自己想成为怎么样的一个人。角色是 ...
2020-10-04 09:48 0 728 推荐指数:
简介 LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题。以下先从RNN介绍。 简说RNN RNN(Rec ...
论文地址:https://arxiv.org/pdf/1802.05365.pdf 简介 以往的词向量如word2vec、glove等词向量模型,针对某一个词生成的词向量都是固定的,无法解决 ...
论文地址:https://arxiv.org/pdf/1810.04805.pdf 简介 bert是google2018年提出的一种两阶段语言模型,全称Bidirectional Encod ...
论文地址:https://arxiv.org/pdf/1906.08237.pdf 简介 XLNet是一个类似BERT的模型,但是它采用了通用的自回归预训练方法(AR模型),而基于DAE的Bert ...
学习能力很重要。阅读只是其中一种方式。阅读是输入,表达是输出,有时以为看过就算是懂了书中的内容,实际上却是一种假懂的状态,因为只是了解文字表面的意思,所以在讲述心得的时候,只会在脑中不断地 ...
在外网发现一篇把word2vec的hierarchical softmax优化讲得比较好的博客,详见:http://building-babylon.net/2017/08/01/hierarchical-softmax/ 总结: 1、层次化softmax是为了解决用softmax进行V分类时 ...
构建词表是NLP任务中的一个基本要求,传统的方法是对各个句子进行分词,然后选取频率最高的N个词组成词表。但是这样的做法不可避免的会带来一些问题,如OOV问题,低频次/稀疏词的语义很难获取(因为没有训练)等。 为解决上述问题,提出了subword模型。该模型的划分粒度介于词与字符之间 ...
刚接触NLP这块,有两个关于transformer的问题: 1)为什么要有decoder?如果encoder后面直接接全连接不可以吗? 2)为什么decoder要有mask?为什么要按时间步一个字一个字翻译?这样的话,是不是英语从句翻译成汉语就不可行,比如 He is a person who ...