用word2vec對語料進行訓練


      在Linux上安裝好word2vec, 進入trunk文件夾,把分詞后的語料文件放在trunk文件夾內,執行:./word2vec -train tt.txt -output vectors.bin -cbow 1 -size 80 -window 5 -negative 80 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

      其中tt.txt是剛才分詞后的輸出文件,vectors.bin是訓練后輸出的文件,-cbow 0表示不使用cbow模型,默認為Skip-Gram模型。-size 80 每個單詞的向量維度是80,-window 5 訓練的窗口大小為5就是考慮一個詞前五個和后五個詞語(實際代碼中還有一個隨機選窗口的過程,窗口大小小於等於5)。-negative 0 -hs 1不使用NEG方法,使用HS方法。-sampe指的是采樣的閾值,如果一個詞語在訓練樣本中出現的頻率越大,那么就越會被采樣。-binary為1指的是結果二進制存儲,為0是普通存儲(普通存儲的時候是可以打開看到詞語和對應的向量的)。

      訓練完成后,執行命令:

      ./distance vectors.bin

 

      訓練結果也可以為二進制存儲,也可以是普通存儲。執行:./word2vec -train tt.txt -output out.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

      輸出文件為out.txt,我們得到一個純文本的文件,


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM