訓練中文詞向量


  1. 首先是下載中文維基數據 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
  2. 下載提取工具https://github.com/attardi/wikiextractor
  3. 運行python WikiExtractor.py -b 5000M -o extracted zhwiki-latest-pages-articles.xml.bz2
  4. 安裝繁體轉簡體工具 sudo apt-get install opencc
  5. 在extracted子目錄下執行繁體轉簡體 opencc -i wiki_00 -o zhwiki.text -c t2s.json
  6. 利用jieba分好詞
  7. 下載word2vec工具 https://github.com/dav/word2vec
  8. 編譯word2vec工具,進入到word2vec 目錄下 運行命令 make,再運行命令 cd scripts && ./demo-word.sh
  9. 詞向量訓練 進入bin 文件夾下面,輸入 ./word2vec -train 輸入語料 -output 輸出文件路徑 -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -iter 15,等待片刻即可


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM