文本分布式表示(一):word2vec理論


Word2vec是Google的Mikolov等人提出來的一種文本分布式表示的方法,這種方法是對神經網絡語言模型的“瘦身”, 巧妙地運用層次softmax(hierarchical softmax )和負采樣(Negative sampling )兩種技巧,使得原本參數繁多、計算量巨大的神經網絡語言模型變得容易計算。

Word2vec概括地說是包含了兩種模型和兩種加速訓練方法:

(一)兩種模型:CBOW(continuous bag-of-words)和Skip-Gram。CBOW的目標是通過上下文的詞語預測中間的詞是什么。而skip-gram則相反,由一個特定的詞來預測前后可能出現的詞。這兩個模型並非是在Word2vec中首次提出,而是神經網絡語言模型中就有的。

(二)兩種方法:層次softmax和負采樣。層次softmax是通過構建一種有效的樹結構(哈夫曼樹,huffman tree)來加速計算詞語的概率分布的方法;而負采樣則是通過隨機抽取負樣本,與正樣本一起參加每次迭代,變成一個二分類問題而減少計算量的方法。

 

學習資料:

1、cs224n《Introduction and Word Vectors 》

2、《word2vec中的數學原理詳解》

https://blog.csdn.net/itplus/article/details/37969519

3、劉建平《word2vec原理》

https://www.cnblogs.com/pinard/p/7160330.html

4、Word2vec數學原理全家桶

http://shomy.top/2017/07/28/word2vec-all/

5、吳恩達 《深度學習》


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM