- 首先是下載中文維基數據 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
- 下載提取工具https://github.com/attardi/wikiextractor
- 運行python WikiExtractor.py -b 5000M -o extracted zhwiki-latest-pages-articles.xml.bz2
- 安裝繁體轉簡體工具 sudo apt-get install opencc
- 在extracted子目錄下執行繁體轉簡體 opencc -i wiki_00 -o zhwiki.text -c t2s.json
- 利用jieba分好詞
- 下載word2vec工具 https://github.com/dav/word2vec
- 編譯word2vec工具,進入到word2vec 目錄下 運行命令
make
,再運行命令cd scripts && ./demo-word.sh
- 詞向量訓練 進入bin 文件夾下面,輸入 ./word2vec -train 輸入語料 -output 輸出文件路徑 -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -iter 15,等待片刻即可