用word2vec對語料進行訓練

本文轉載自查看原文 2017-05-26 16:13 1786 NLP

在Linux上安裝好word2vec，進入trunk文件夾，把分詞后的語料文件放在trunk文件夾內，執行：./word2vec -train tt.txt -output vectors.bin -cbow 1 -size 80 -window 5 -negative 80 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

其中tt.txt是剛才分詞后的輸出文件，vectors.bin是訓練后輸出的文件，-cbow 0表示不使用cbow模型，默認為Skip-Gram模型。-size 80 每個單詞的向量維度是80，-window 5 訓練的窗口大小為5就是考慮一個詞前五個和后五個詞語（實際代碼中還有一個隨機選窗口的過程，窗口大小小於等於5）。-negative 0 -hs 1不使用NEG方法，使用HS方法。-sampe指的是采樣的閾值，如果一個詞語在訓練樣本中出現的頻率越大，那么就越會被采樣。-binary為1指的是結果二進制存儲，為0是普通存儲（普通存儲的時候是可以打開看到詞語和對應的向量的）。

訓練完成后，執行命令：

./distance vectors.bin

訓練結果也可以為二進制存儲，也可以是普通存儲。執行：./word2vec -train tt.txt -output out.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

輸出文件為out.txt，我們得到一個純文本的文件，

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python之利用 gensim的word2vec進行酒店評論+wiki百科語料聯合詞向量訓練 wiki中文語料的word2vec模型構建 word2vec詞向量處理中文語料基於word2vec訓練詞向量(一) word2vec模型訓練簡單案例 word2vec訓練中文模型 word2vec詞向量處理英文語料 word2vec高效訓練方法