原文:[NLP]subword理解:BPE,WordPiece,ULM

构建词表是NLP任务中的一个基本要求,传统的方法是对各个句子进行分词,然后选取频率最高的N个词组成词表。但是这样的做法不可避免的会带来一些问题,如OOV问题,低频次 稀疏词的语义很难获取 因为没有训练 等。 为解决上述问题,提出了subword模型。该模型的划分粒度介于词与字符之间,如将 looking 分割为 look 和 ing 两个子词,因而它能够大大降低词典的大小,同时对相近词能更好的处理 ...

2020-09-17 20:02 0 778 推荐指数:

查看详情

NLP理解层次

2020-10-04 09:24:37-09:48:30 备注:大部分内容转自知乎谢春霖 NLP理解层次:对一个事情的理解,我们可以分为6个理解层次 精神 精神是什么意思?就是你与世界的关系。也就是我们经常听到的「人生使命」,你来到这个世界是为了什么?你能为别人,为社会 ...

Sun Oct 04 17:48:00 CST 2020 0 728
[NLP]LSTM理解

简介 LSTM(Long short-term memory,长短期记忆)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题。以下先从RNN介绍。 简说RNN RNN(Rec ...

Thu Mar 12 00:33:00 CST 2020 0 5660
[NLP]ELMO理解

论文地址:https://arxiv.org/pdf/1802.05365.pdf 简介 以往的词向量如word2vec、glove等词向量模型,针对某一个词生成的词向量都是固定的,无法解决 ...

Thu Mar 12 00:38:00 CST 2020 0 1072
[NLP]BERT论文理解

论文地址:https://arxiv.org/pdf/1810.04805.pdf 简介 bert是google2018年提出的一种两阶段语言模型,全称Bidirectional Encod ...

Sun Mar 08 01:17:00 CST 2020 0 666
[NLP]XLNet论文理解

论文地址:https://arxiv.org/pdf/1906.08237.pdf 简介 XLNet是一个类似BERT的模型,但是它采用了通用的自回归预训练方法(AR模型),而基于DAE的Bert ...

Sat Mar 07 01:10:00 CST 2020 0 653
NLP中transformer里面decoder的理解

刚接触NLP这块,有两个关于transformer的问题: 1)为什么要有decoder?如果encoder后面直接接全连接不可以吗? 2)为什么decoder要有mask?为什么要按时间步一个字一个字翻译?这样的话,是不是英语从句翻译成汉语就不可行,比如 He is a person who ...

Tue Mar 15 19:24:00 CST 2022 0 1036
[NLP论文]Longformer: The Long-Document Transformer论文翻译及理解

摘要 基于Transformer的模型由于自注意力操作不能处理长序列,自注意力操作是序列长度的二次方。为了定位这个限制,我们提出一种Longformer的方法,它使用的注意力机制能够随着序列长度线性 ...

Tue Jan 12 04:49:00 CST 2021 0 414
NLP系列文章:子词嵌入(fastText)的理解!(附代码)

1. 什么是fastText 英语单词通常有其内部结构和形成⽅式。例如,我们可以从“dog”“dogs”和“dogcatcher”的字⾯上推测它们的关系。这些词都有同⼀个词根“dog”,但使⽤不同的 ...

Fri Aug 23 16:49:00 CST 2019 0 970
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM