word2vec安裝以及使用

本文轉載自查看原文 2016-05-24 22:47 8516 word2vec/ 數據挖掘

一、安裝

　　我使用的是在linux環境下運行的，所以首先去下載linux環境模擬器，下載的是cygwin因為要使用make命令工具，所以安裝時要選中Devel與utils模塊，默認安裝沒有安裝make命令工具。記住一定要選中這兩個模塊，不然沒有make命令工具沒法運行makefile。

二、作用

　　我知道word2vec可以查看輸入一個詞，查看相近詞比如這樣

也可以對文本進行聚類，在其他人博客上看的說是使用k均值聚類

比如這樣

聚完類也可以對聚類結果排序

最后一個功能是短語分析沒用過

可以參見http://www.cnblogs.com/hebin/p/3507609.html

這個博客

三、語料文件要求

　　語料文件要使用空格將詞語分開，分詞工具可是使用中科院分詞工具。我會寫一篇中科院分詞工具的使用，大家可以參見。使用utf-8編碼，可是使用Notepade++等工具將文件改變編碼。

四、使用

　　進入linux環境模擬器輸入 cd D:/word2vec/w2v/trunk這是進入文件下的指令，然后輸入make等一會文件中會出現一些其他的文件，然后就可以使用了。將訓練文件放到當前目錄下。

使用指令

-train 訓練數據
-output 結果輸入文件，即每個詞的向量
-cbow 是否使用cbow模型，0表示使用skip-gram模型，1表示使用cbow模型，默認情況下是skip-gram模型，cbow模型快一些，skip-gram模型效果好一些
-size 表示輸出的詞向量維數
-window 為訓練的窗口大小，8表示每個詞考慮前8個詞與后8個詞（實際代碼中還有一個隨機選窗口的過程，窗口大小<=5)
-negative 表示是否使用NEG方，0表示不使用，其它的值目前還不是很清楚
-hs 是否使用HS方法，0表示不使用，1表示使用
-sample 表示采樣的閾值，如果一個詞在訓練樣本中出現的頻率越大，那么就越會被采樣
-binary 表示輸出的結果文件是否采用二進制存儲，0表示不使用（即普通的文本存儲，可以打開查看），1表示使用，即vectors.bin的存儲類型

通過設置binary可以打開查看

文本聚類的語句

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500 &
2 sort classes.txt -k 2 -n > classes_sorted_sogouca.txt

引用參考博客

http://www.cnblogs.com/hebin/p/3507609.html

http://blog.csdn.net/heyongluoyao8/article/details/43488765

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 word2vec:基本的安裝及使用簡介 Word2Vec 使用總結 word2vec原理及gensim中word2vec的使用 python3.7 安裝gensim使用word2Vec庫 word2vec使用說明 Google詞向量word2vec的使用 Gensim的model使用word2vec 示例 python gensim下使用Word2vec gensim庫word2vec使用 word2vec 入門（二）使用教程篇