gensim ——訓練word2vec詞向量的使用方法。


# -*- coding: utf-8 -*-

import os
import time
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

from gensim.models import word2vec


def main():
    # 原始語料路徑,已分詞
    input_file = ur"sogou_seg.txt"
    sentences = word2vec.Text8Corpus(input_file)
  #訓練代碼 model
= word2vec.Word2Vec(sentences, sg=1, size=100, window=5, min_count=1, negative=3, sample=0.001, hs=1, workers=40)  #save
model.save(
"./sogou_word2vec/min_count-1/sogou_word.model") model.wv.save_word2vec_format("./sogou_word2vec/min_count-1/sogou.wor2vec.txt") if __name__ == "__main__": main() print "Done!"

load 的時候只需要

model = word2vec.Word2Vec.load("./sogou_word2vec/min_count-1/sogou_word.model")

或者

model=gensim.models.KeyedVectors.load_word2vec_format("./sogou_word2vec/min_count-1/sogou.wor2vec.txt")


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM