标签【Embeddinig】 - 码上欢乐

word2vec是google 2013年提出的，从大规模语料中训练词向量的模型，在许多场景中都有应用，信息提取相似度计算等等。也是从word2vec开始，embedding在各个领域的应用开始流行， ...

Fasttext是FaceBook开源的文本分类和词向量训练库。最初看其他教程看的我十分迷惑，咋的一会ngram是字符一会ngram又变成了单词，最后发现其实是两个模型，一个是文本分类模型[Ref2] ...

上一章我们聊了聊quick-thought通过干掉decoder加快训练, CNN—LSTM用CNN作为Encoder并行计算来提速等方法，这一章看看抛开CNN和RNN，transformer是如何只 ...

这一节我们来聊聊不定长的文本向量，这里我们暂不考虑有监督模型，也就是任务相关的句子表征，只看通用文本向量，根据文本长短有叫sentence2vec, paragraph2vec也有叫doc2vec的。 ...

前一章Doc2Vec里提到，其实Doc2Vec只是通过加入Doc_id捕捉了文本的主题信息，并没有真正考虑语序以及上下文语义，n-gram只能在局部解决这一问题，那么还有别的解决方案么？依旧是通用文本 ...

在4/5章我们讨论过用skip-thought，quick-thought任务来进行通用文本向量提取，当时就有一个疑问为什么用Bookcorpus这种连续文本，通过预测前一个和后一个句子的方式得到的文 ...