一 前言
Word2Vec是同上一篇提及的PageRank一樣,都是Google的工程師和機器學習專家所提出的的;在學習這些算法、模型的時候,最好優先去看Google提出者的原汁Paper和Project,那樣帶來的啟發將更大。因為創造者對自己所創之物的了解程度優於這世上的絕大部分者,這句話,針對的是愛看博文的讀者,like me。
另外,補充幾句。
1.防止又被抄襲,故關鍵筆記以圖貼之。
2.標題前帶阿拉伯數字標號的內容,便是使用Gensim的Word2Vec模型過程中的完整流程序號,通常也較為常用且重要。
二 鳴謝
感謝如下文章/論文的詳細描述,它們亦是本文的主要測試依據,尤其需要感謝最后四篇博文的精彩解說。
- Word2Vec Introduction - Google - [推薦]
- Gensim - Word2Vec - Github
- Gensim - Github
- 基於 Gensim 的 Word2Vec 實踐
- 翻譯Gensim的word2vec說明
- Gensim之Word2Vec使用手冊 - [推薦]
- word2vec詞向量中文語料處理(python gensim word2vec總結)
三 Word2Vec 概要
重要API/類
- gensim.models.KeyedVectors
- gensim.models.word2vec
- gensim.models.word2vec.Word2Vec(sentences,min_count,size,worker)
- gensim.models.Word2Vec(sentences,min_count,size,worker)
Word2Vec類:構建Word2Vec詞向量模型

四 Word2Vec 詳解
- 注:標題前帶阿拉伯數字標號的內容,便是使用Gensim的Word2Vec模型過程中的完整流程序號,通常也較為常用且重要。
1 加載語料庫


2 (初次)訓練

手動構建詞匯表

3 追加訓練(更新模型)

4 存儲模型

5 加載模型

6 獲取詞向量

加載詞向量

7 模型應用

8 模型評估

五 補充
- 歡迎探討,歡迎Follow~