一、安裝
我使用的是在linux環境下運行的,所以首先去下載linux環境模擬器,下載的是cygwin因為要使用make命令工具,所以安裝時要選中Devel與utils模塊,默認安裝沒有安裝make命令工具。記住一定要選中這兩個模塊,不然沒有make命令工具沒法運行makefile。
二、作用
我知道word2vec可以查看輸入一個詞,查看相近詞比如這樣

也可以對文本進行聚類,在其他人博客上看的說是使用k均值聚類
比如這樣

聚完類也可以對聚類結果排序

最后一個功能是短語分析沒用過
可以參見http://www.cnblogs.com/hebin/p/3507609.html
這個博客
三、語料文件要求
語料文件要使用空格將詞語分開,分詞工具可是使用中科院分詞工具。我會寫一篇中科院分詞工具的使用,大家可以參見。使用utf-8編碼,可是使用Notepade++等工具將文件改變編碼。
四、使用
進入linux環境模擬器輸入 cd D:/word2vec/w2v/trunk這是進入文件下的指令,然后輸入make等一會文件中會出現一些其他的文件,然后就可以使用了。將訓練文件放到當前目錄下。
使用指令

-train 訓練數據
-output 結果輸入文件,即每個詞的向量
-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默認情況下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些
-size 表示輸出的詞向量維數
-window 為訓練的窗口大小,8表示每個詞考慮前8個詞與后8個詞(實際代碼中還有一個隨機選窗口的過程,窗口大小<=5)
-negative 表示是否使用NEG方,0表示不使用,其它的值目前還不是很清楚
-hs 是否使用HS方法,0表示不使用,1表示使用
-sample 表示 采樣的閾值,如果一個詞在訓練樣本中出現的頻率越大,那么就越會被采樣
-binary 表示輸出的結果文件是否采用二進制存儲,0表示不使用(即普通的文本存儲,可以打開查看),1表示使用,即vectors.bin的存儲類型
通過設置binary可以打開查看
文本聚類的語句
./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500 &
2 sort classes.txt -k 2 -n > classes_sorted_sogouca.txt
引用參考博客
http://www.cnblogs.com/hebin/p/3507609.html
http://blog.csdn.net/heyongluoyao8/article/details/43488765
