doc2vec使用說明（一）gensim工具包TaggedLineDocument

gensim 是處理文本的很強大的工具包，基於python環境下：

1.gensim可以做什么？

它可以完成的任務，參加gensim 主頁API中給出的介紹，鏈接如下：

http://radimrehurek.com/gensim/apiref.html

2.word2vec的使用

其中學習詞向量的方法可利用，word2vec，具體使用我愛自然語言中介紹的很清楚，如下鏈接：

http://ju.outofmemory.cn/entry/80023

3.doc2vec/paragraph2vec的使用方法

學習文檔向量，doc2vec（也就是官方網站API中的paragraph2vec)使用方法，中文資料較少,RaRe Machine Learning Blog英文博客講解的比較詳細,鏈接如下：

http://rare-technologies.com/doc2vec-tutorial/

因為要做文檔向量的學習，我也寫了個學習文檔向量的例子，僅供參考，代碼如下：

 1 import gensim, logging
 2 import os
 3 
 4 logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level = logging.INFO)
 5 sentences = gensim.models.doc2vec.TaggedLineDocument('review_pure_text.txt')
 6 model = gensim.models.Doc2Vec(sentences, size = 100, window = 5)
 7 model.save('review_pure_text_model.txt')
 8 print len(model.docvecs)

 9 out = file('review_pure_text_vector.txt', 'w')
10 for idx, docvec in enumerate(model.docvecs):
11     for value in docvec:
12       out.write(str(value) + ' ')
13     out.write('\n')
14     print idx
15     print docvec
16 out.close()

輸入文件Tweets_id_text.txt的格式就是每個doc 對應內容的分詞，空格隔開，每個doc是一行

用TaggedLineDocument 實現，每個doc默認編號

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Doc2vec學習總結（三） Doc2vec實現原理【NLP-05】Doc2vec word2vec 和 doc2vec 詞向量表示 doc2vec 利用gensim 生成文檔向量 python3 doc2vec文本聚類實現 Gensim進階教程：訓練word2vec與doc2vec模型無所不能的Embedding3 - word2vec->Doc2vec[PV-DM/PV-DBOW] 文本表征：SoW、BoW、TF-IDF、Hash Trick、doc2vec、DBoW、DM 【機器學習】使用gensim 的 doc2vec 實現文本相似度檢測