1、word2vec
耳熟能詳的NLP向量化模型。
Paper: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
Java: http://deeplearning4j.org/word2vec
C++: https://github.com/jdeng/word2vec
Python:
https://radimrehurek.com/gensim/models/word2vec.html
https://github.com/danielfrg/word2vec
2、doc2vec
Paper: https://cs.stanford.edu/~quocle/paragraph_vector.pdf
Python: https://radimrehurek.com/gensim/models/doc2vec.html
word2vec模型對詞向量進行平均處理,我們仍然忽略了單詞之間的排列順序對情感分析的影響。即上述的word2vec只是基於詞的維度進行”語義分析”的,而並不具有上下文的”語義分析”能力。
作為一個處理可變長度文本的總結性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外,這個方法幾乎等同於 Word2Vec。和 Word2Vec 一樣,該模型也存在兩種方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 試圖在給定上下文和段落向量的情況下預測單詞的概率。在一個句子或者文檔的訓練過程中,段落 ID 保持不變,共享着同一個段落向量。DBOW 則在僅給定段落向量的情況下預測段落中一組隨機單詞的概率。
(參考:Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec詞向量模型 )
3、tweet2vec
Paper: https://arxiv.org/abs/1605.03481
Python: https://github.com/bdhingra/tweet2vec
一些社交文本中的語言結構跟書面語大不相同,所以作者別出心裁的特意做了一個基於字符組合的模型,其可以基於整個微博環境下復雜、非正常語言的字符串中學習到一種向量化的表達方式。
4、batter-pitcher-2vec
Python: https://github.com/airalcorn2/batter-pitcher-2vec
5、illustration-2vec
Python: https://github.com/rezoo/illustration2vec
6、lda2vec
Paper: https://arxiv.org/pdf/1605.02019v1.pdf
Python: https://github.com/cemoody/lda2vec
將LDA與word2vec相結合,LDA是我比較在意的研究方向,這個模型很早提出,不過應用地倒是不多。
lda2vec the topics can be ‘supervised’ and forced to predict another target.
7、sentence2vec
Python: https://github.com/klb3713/sentence2vec
8、wiki2vec
Java/Scala: https://github.com/idio/wiki2vec
9、topicvec
Paper: http://bigml.cs.tsinghua.edu.cn/~jun/topic-embedding.pdf
Python: https://github.com/askerlee/topicvec
10、entity2vec
Python: https://github.com/ot/entity2vec
Paper: http://www.di.unipi.it/~ottavian/files/wsdm15_fel.pdf
11、str2vec
Python: https://github.com/pengli09/str2vec
12、node2vec
Paper: https://arxiv.org/abs/1607.00653
Page: https://snap.stanford.edu/node2vec/
Python: https://github.com/aditya-grover/node2vec
可見:筆記︱基於網絡節點的node2vec、論文、算法python實現
13、item2vec
Paper: https://arxiv.org/abs/1603.04259
14、author2vec
15、playlist-to-vec
Python: https://github.com/mattdennewitz/playlist-to-vec
16、sense2vec
Paper: https://arxiv.org/abs/1511.06388
17、med2vec
Paper: https://arxiv.org/abs/1602.05568
Python: https://github.com/mp2893/med2vec
SCODE Word Embeddings using Substitute Words
Python: https://github.com/ai-ku/wvec
18、game2vec
Python: https://github.com/warchildmd/game2vec
19、paper2vec
Paper: https://arxiv.org/pdf/1703.06587.pdf
轉自:http://blog.csdn.net/sinat_26917383/article/details/69666596