原文:[NLP]subword理解:BPE,WordPiece,ULM

構建詞表是NLP任務中的一個基本要求,傳統的方法是對各個句子進行分詞,然后選取頻率最高的N個詞組成詞表。但是這樣的做法不可避免的會帶來一些問題,如OOV問題,低頻次 稀疏詞的語義很難獲取 因為沒有訓練 等。 為解決上述問題,提出了subword模型。該模型的划分粒度介於詞與字符之間,如將 looking 分割為 look 和 ing 兩個子詞,因而它能夠大大降低詞典的大小,同時對相近詞能更好的處理 ...

2020-09-17 20:02 0 778 推薦指數:

查看詳情

NLP理解層次

2020-10-04 09:24:37-09:48:30 備注:大部分內容轉自知乎謝春霖 NLP理解層次:對一個事情的理解,我們可以分為6個理解層次 精神 精神是什么意思?就是你與世界的關系。也就是我們經常聽到的「人生使命」,你來到這個世界是為了什么?你能為別人,為社會 ...

Sun Oct 04 17:48:00 CST 2020 0 728
[NLP]LSTM理解

簡介 LSTM(Long short-term memory,長短期記憶)是一種特殊的RNN,主要是為了解決長序列訓練過程中的梯度消失問題。以下先從RNN介紹。 簡說RNN RNN(Rec ...

Thu Mar 12 00:33:00 CST 2020 0 5660
[NLP]ELMO理解

論文地址:https://arxiv.org/pdf/1802.05365.pdf 簡介 以往的詞向量如word2vec、glove等詞向量模型,針對某一個詞生成的詞向量都是固定的,無法解決 ...

Thu Mar 12 00:38:00 CST 2020 0 1072
[NLP]BERT論文理解

論文地址:https://arxiv.org/pdf/1810.04805.pdf 簡介 bert是google2018年提出的一種兩階段語言模型,全稱Bidirectional Encod ...

Sun Mar 08 01:17:00 CST 2020 0 666
[NLP]XLNet論文理解

論文地址:https://arxiv.org/pdf/1906.08237.pdf 簡介 XLNet是一個類似BERT的模型,但是它采用了通用的自回歸預訓練方法(AR模型),而基於DAE的Bert ...

Sat Mar 07 01:10:00 CST 2020 0 653
NLP中transformer里面decoder的理解

剛接觸NLP這塊,有兩個關於transformer的問題: 1)為什么要有decoder?如果encoder后面直接接全連接不可以嗎? 2)為什么decoder要有mask?為什么要按時間步一個字一個字翻譯?這樣的話,是不是英語從句翻譯成漢語就不可行,比如 He is a person who ...

Tue Mar 15 19:24:00 CST 2022 0 1036
[NLP論文]Longformer: The Long-Document Transformer論文翻譯及理解

摘要 基於Transformer的模型由於自注意力操作不能處理長序列,自注意力操作是序列長度的二次方。為了定位這個限制,我們提出一種Longformer的方法,它使用的注意力機制能夠隨着序列長度線性 ...

Tue Jan 12 04:49:00 CST 2021 0 414
NLP系列文章:子詞嵌入(fastText)的理解!(附代碼)

1. 什么是fastText 英語單詞通常有其內部結構和形成⽅式。例如,我們可以從“dog”“dogs”和“dogcatcher”的字⾯上推測它們的關系。這些詞都有同⼀個詞根“dog”,但使⽤不同的 ...

Fri Aug 23 16:49:00 CST 2019 0 970
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM