word2vec安裝以及使用


一、安裝

  我使用的是在linux環境下運行的,所以首先去下載linux環境模擬器,下載的是cygwin因為要使用make命令工具,所以安裝時要選中Devel與utils模塊,默認安裝沒有安裝make命令工具。記住一定要選中這兩個模塊,不然沒有make命令工具沒法運行makefile。

二、作用

  我知道word2vec可以查看輸入一個詞,查看相近詞比如這樣

也可以對文本進行聚類,在其他人博客上看的說是使用k均值聚類

比如這樣

聚完類也可以對聚類結果排序

最后一個功能是短語分析沒用過

 可以參見http://www.cnblogs.com/hebin/p/3507609.html

這個博客

三、語料文件要求

  語料文件要使用空格將詞語分開,分詞工具可是使用中科院分詞工具。我會寫一篇中科院分詞工具的使用,大家可以參見。使用utf-8編碼,可是使用Notepade++等工具將文件改變編碼。

四、使用

  進入linux環境模擬器輸入  cd D:/word2vec/w2v/trunk這是進入文件下的指令,然后輸入make等一會文件中會出現一些其他的文件,然后就可以使用了。將訓練文件放到當前目錄下。

使用指令

-train 訓練數據
-output 結果輸入文件,即每個詞的向量
-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默認情況下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些
-size 表示輸出的詞向量維數
-window 為訓練的窗口大小,8表示每個詞考慮前8個詞與后8個詞(實際代碼中還有一個隨機選窗口的過程,窗口大小<=5)
-negative 表示是否使用NEG方,0表示不使用,其它的值目前還不是很清楚
-hs 是否使用HS方法,0表示不使用,1表示使用
-sample 表示 采樣的閾值,如果一個詞在訓練樣本中出現的頻率越大,那么就越會被采樣
-binary 表示輸出的結果文件是否采用二進制存儲,0表示不使用(即普通的文本存儲,可以打開查看),1表示使用,即vectors.bin的存儲類型

通過設置binary可以打開查看

文本聚類的語句

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500  &
2 sort classes.txt -k 2 -n > classes_sorted_sogouca.txt 

引用參考博客

http://www.cnblogs.com/hebin/p/3507609.html

http://blog.csdn.net/heyongluoyao8/article/details/43488765

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM