2020-10-04 09:24:37-09:48:30 备注:大部分内容转自知乎谢春霖 NLP理解层次:对一个事情的理解,我们可以分为6个理解层次 精神 精神是什么意思?就是你与世界的关系。也就是我们经常听到的「人生使命」,你来到这个世界是为了什么?你能为别人,为社会 ...
构建词表是NLP任务中的一个基本要求,传统的方法是对各个句子进行分词,然后选取频率最高的N个词组成词表。但是这样的做法不可避免的会带来一些问题,如OOV问题,低频次 稀疏词的语义很难获取 因为没有训练 等。 为解决上述问题,提出了subword模型。该模型的划分粒度介于词与字符之间,如将 looking 分割为 look 和 ing 两个子词,因而它能够大大降低词典的大小,同时对相近词能更好的处理 ...
2020-09-17 20:02 0 778 推荐指数:
2020-10-04 09:24:37-09:48:30 备注:大部分内容转自知乎谢春霖 NLP理解层次:对一个事情的理解,我们可以分为6个理解层次 精神 精神是什么意思?就是你与世界的关系。也就是我们经常听到的「人生使命」,你来到这个世界是为了什么?你能为别人,为社会 ...
简介 LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题。以下先从RNN介绍。 简说RNN RNN(Rec ...
论文地址:https://arxiv.org/pdf/1802.05365.pdf 简介 以往的词向量如word2vec、glove等词向量模型,针对某一个词生成的词向量都是固定的,无法解决 ...
论文地址:https://arxiv.org/pdf/1810.04805.pdf 简介 bert是google2018年提出的一种两阶段语言模型,全称Bidirectional Encod ...
论文地址:https://arxiv.org/pdf/1906.08237.pdf 简介 XLNet是一个类似BERT的模型,但是它采用了通用的自回归预训练方法(AR模型),而基于DAE的Bert ...
刚接触NLP这块,有两个关于transformer的问题: 1)为什么要有decoder?如果encoder后面直接接全连接不可以吗? 2)为什么decoder要有mask?为什么要按时间步一个字一个字翻译?这样的话,是不是英语从句翻译成汉语就不可行,比如 He is a person who ...
摘要 基于Transformer的模型由于自注意力操作不能处理长序列,自注意力操作是序列长度的二次方。为了定位这个限制,我们提出一种Longformer的方法,它使用的注意力机制能够随着序列长度线性 ...
1. 什么是fastText 英语单词通常有其内部结构和形成⽅式。例如,我们可以从“dog”“dogs”和“dogcatcher”的字⾯上推测它们的关系。这些词都有同⼀个词根“dog”,但使⽤不同的 ...