訓練中文詞向量

本文轉載自查看原文 2018-01-28 12:18 1114 機器學習/ 表示學習/ 詞向量/ 日常裝逼系列

首先是下載中文維基數據 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
下載提取工具https://github.com/attardi/wikiextractor
運行python WikiExtractor.py -b 5000M -o extracted zhwiki-latest-pages-articles.xml.bz2
安裝繁體轉簡體工具 sudo apt-get install opencc
在extracted子目錄下執行繁體轉簡體 opencc -i wiki_00 -o zhwiki.text -c t2s.json
利用jieba分好詞
下載word2vec工具 https://github.com/dav/word2vec
編譯word2vec工具，進入到word2vec 目錄下運行命令 make，再運行命令 cd scripts && ./demo-word.sh
詞向量訓練進入bin 文件夾下面，輸入 ./word2vec -train 輸入語料 -output 輸出文件路徑 -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -iter 15，等待片刻即可

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 中文詞向量訓練使用word2vec訓練中文詞向量中文詞向量論文綜述（四）中文詞向量論文綜述（一）中文詞向量論文綜述（三）英文詞向量：使用fastText預訓練的詞向量使用BERT獲取中文詞向量使用BERT獲取中文詞向量