標簽【Embeddinig】 - 碼上歡樂

word2vec是google 2013年提出的，從大規模語料中訓練詞向量的模型，在許多場景中都有應用，信息提取相似度計算等等。也是從word2vec開始，embedding在各個領域的應用開始流行， ...

Fasttext是FaceBook開源的文本分類和詞向量訓練庫。最初看其他教程看的我十分迷惑，咋的一會ngram是字符一會ngram又變成了單詞，最后發現其實是兩個模型，一個是文本分類模型[Ref2] ...

上一章我們聊了聊quick-thought通過干掉decoder加快訓練, CNN—LSTM用CNN作為Encoder並行計算來提速等方法，這一章看看拋開CNN和RNN，transformer是如何只 ...

這一節我們來聊聊不定長的文本向量，這里我們暫不考慮有監督模型，也就是任務相關的句子表征，只看通用文本向量，根據文本長短有叫sentence2vec, paragraph2vec也有叫doc2vec的。 ...

前一章Doc2Vec里提到，其實Doc2Vec只是通過加入Doc_id捕捉了文本的主題信息，並沒有真正考慮語序以及上下文語義，n-gram只能在局部解決這一問題，那么還有別的解決方案么？依舊是通用文本 ...

在4/5章我們討論過用skip-thought，quick-thought任務來進行通用文本向量提取，當時就有一個疑問為什么用Bookcorpus這種連續文本，通過預測前一個和后一個句子的方式得到的文 ...